第5章 数字媒资的编目与检索ppt课件.ppt
《第5章 数字媒资的编目与检索ppt课件.ppt》由会员分享,可在线阅读,更多相关《第5章 数字媒资的编目与检索ppt课件.ppt(84页珍藏版)》请在三一办公上搜索。
1、第5章 数媒资产的编目与检索,刘士军,数字媒体资产管理,2,本章内容,5.1 数字媒体资产的编目技术5.2 数字媒体资产的检索技术,数字媒体资产管理,3,1.编目技术,所谓编目就是对信息资源的形式及内容特征进行分析、选择和记录,然后再将这些描述信息按照一定的规则有序化地组织起来数字媒体资产的编目是对音、视频对象整理和提炼的过程,将其中有价值的画面和资料的相关信息整理成为独立的文件,便于检索和再利用编目是数字媒体资产应用的基础和关键,各类音、视频节目和素材资料的入库必须经过科学严格的编目,否则对于海量存储系统来说,其后果可能是永远也找不到该资料,数字媒体资产管理,4,传统的卡片目录,S 种植优良
2、新品种/李登春等主编.北京32 气象出版社,1992.084015 298页;7-5029-0961-3 (平) 5.50元.92303030-31(2) ,数字媒体资产管理,5,国际联机检索,Dialog OpenAccess美国DIALOG系统是世界上最早和最大的专业情报检索系统,也是我国科技界广泛使 用的系统。该公司自1972年起,开始为用户提供服务工作系统拥有600多个数据库。其数据库类型主要有四种:即文献型、数值型、名录字典型、全文型。涉及多个语种,收录的信息涉及的专业范围广泛CALIS联合目录中国高等教育文献保障系统(China Academic Library & Informa
3、tion System,简称CALIS联机合作编目始于2000年3月,数字媒体资产管理,6,CALIS联合编目系统例子,数字媒体资产管理,7,数字媒体资产管理,8,编目标准,目前一般类资料编目中可借鉴的标准主要有UNIMARC标准和CNMARC标准MARC就是机读目录,即Machine-Readable Catalogue,称机器可读目录,是计算机编目的产品UNIMARC ( Universal Machine-Readablee Catalogue,通用机读目录)于1976年在USMARC的基础上由国际图书馆联合会制定,目的是能够适应不同文种和文献类型间数据交换的需要CNMARC我国依据UN
4、IMARC制定的中国机读目录格式,主要用于国内图书情报部门和其他国家书目机构之间的信息交换与检索,数字媒体资产管理,9,机读目录MARC编目,MARC编目是通过编制目录来控制文献的存在状况及存在特征,对文献信息进行整序和控制,以达到利用馆藏资源、交流书目和资源共享的目的MARC编目是使文献有序化,包括对文献信息的著录、标引和组织。它是图书馆的基础工作,是图书馆读者服务工作得以顺利开展的根本保证MARC数据就是元数据。是详细的、严谨的、专业性要求高的一种元数据,数字媒体资产管理,10,MARC编目的历史,1965年美国国会图书馆首先研制;1966年9月生产出试验性磁带MARCI式;1967年试制
5、出MARCII式;1969年正式向该国图书馆订购馆发行MARCII式英文图书磁带;1971年成为美国国家标准;1973年其格式成为国际标准(ISO2709),数字媒体资产管理,11,UNIMARC,国际机读目录,1972年由IFLA推出。随后产生了英国 UKMARC;日本 JMARC;中国 CNMARC,数字媒体资产管理,12,CNMARC中国机读目录通讯格式,1979年,北京图书馆、北京大学图书馆、清华大学图书馆、中国科学院图书馆等共同引进并研究了美国国会图书馆的MARC磁带,成立了北京地区机读目录研制协作组,于1992年出版1995年正式成为文化行业标准,数字媒体资产管理,13,Z39.5
6、0信息检索协议,信息检索协议ANSI/NISO Z39.50ISO 23950MARC数据的交换和共享通过Z39.50协议实现Z39.50 维护管理机构 美国国会图书馆 http:/lcweb.loc.gov/z3950/agency/,数字媒体资产管理,14,Z39.50原理,Z39.50的服务和机制11种机制与相应服务、服务类型、启动方式Z39.50 是客户机、服务器模式但称之为源端( Origin)与目的端 (Target),数字媒体资产管理,15,我国广播电视音像资料编目规范,音频媒体资料有其自身的特殊属性,广电总局于2004年10月13日发布了广播电影电视行业标准广播电视音像资料编目
7、规范第一部分:电视资料(GY/T 202. 1 -2004)该标准提出的编目项目对广播电视节目采编、制作、存储、交换、播出、接收等各个环信息的规范化收集整理起到指导作用,同时方便海量的音像、文字和图片息资料的再利用我国编目规范中使用的元数据标准为都柏林核心( Doulin Core,DC)元数据集,数字媒体资产管理,16,我国广播电视音像资料编目规范,国家广电总局的编目规范规定,视音频资料的元数据总体上分为四个层次,从上到下分别为节目层、片段层、场景层和镜头层各层次分别包含相应的元素类,在元素类下面是各层对象的具体编目元数据项对视音频资料编目时,应从节目层开始著录,片断层、场景层、镜头层著录可
8、以根据实际需要灵活选择,视音频资料元数据的层次、结构,数字媒体资产管理,17,与编目相关的术语和定义,著录、标引著录、标引是指对视音频资料的内容和形式特征进行分析、归纳和记录的过程著录项著录项是用以揭示视音频资料内容和形式特征的记录项目元数据元数据是用于描述数据的数据,指对视音频资料的描述信息素材素材是指具有使用价值的、可用于制作节目的视音频资料,数字媒体资产管理,18,与编目相关的术语和定义,节目节目是指具有独立主题意义的、已经制作完成的完整的视音频资料片段片段是节目或素材中一段连续的视音频资料,由个以上相互关联的场景构成场景场景是指节目或素材中背景或场景不变的一段连续视音频部分,由时间或空
9、间上相关的一个或多个镜头组成镜头镜头指同一摄像机一次摄录的连续画面,数字媒体资产管理,19,编目系统的业务流程,通过一次编目完成从导人的数据或者EDL表中提取相关信息。二次编目对一次编目后的信息进行加工、处理,对素材进行分类、增加主题词、详细说明等;正常编目工作完成之后,提供对已编目资料进行多次编目的功能,丰富并完善编目的信息,数字媒体资产管理,20,编目系统的描述,编目系统的基本原则高效性原则易用性原则开放性原则高可靠性原则,数字媒体资产管理,21,编目系统的描述,编目系统应具备的功能(1)编目系统要符合编目标准,建立节目、片段、场景、镜头具有层次关系的视音频元数据结构(2)编目系统要能够浏
10、览低码流的视音频数据对象,同时可以方便快速地浏览和帧精度定位(3)编目系统要能够对关键帧进行浏览和编辑,并可以实现自动或手动进行节目或节目片段的关键帧分析和提取(4)编目系统可以采用各种灵活的字段结构以及编目输入界面,能够灵活方便的处理各种复杂编目元数据,如受控词处理、重复字段处理、绑定关系处理、分类树处理等,数字媒体资产管理,22,编目系统的描述,编目系统应具备的功能(5)编目系统应支持工作流程的管理、运行和配置,能够实现多结点、多用户的协调流水线方式的编目生产,以提高编目效率(6)在整个编目流水线上,应具备审核机制,并可以对任何未能通过审核的编目元数据建立返工机制(7)编目管理要能够配置各
11、种编目参数,包括流程的配置,同时能够提供对不同流程的编目功能定义以及功能权限的限制(8)编目管理要能够方便地对整个或单个的编目流程进行数据统计和分析,对编目流程、在编条目进行工作量统计计算,以便于管理人员进行工作量统计和流程管理。,数字媒体资产管理,23,编目系统的描述,编目工作站编目工作站的客户端软件,主要用于生成对编目数据库的初级新闻资料编目文件进行详细编目处理,建立稿件关联,并将生成的编目数据上载到编目数据库服务器中,由它完成数据入库的工作,数字媒体资产管理,24,编目系统的描述,编目数据库服务器编目数据库服务器主要用于创建和维护编目数据库和用户身份数据库建立一个结构严谨、数据完整的编目
12、据库对媒体资产管理的后期运行非常重要通常系统构建编目数据库结构时应采用分层结构,采用挑选编目标准字段子集,并过字段映射的方式建立自己的编目数据库结构,数字媒体资产管理,25,编目工作方式,媒资系统数据编目必须同时支持自动和手动两种方式自动方式主要用于基本编目数据的提取。如关键帧的提取可在采集时,利用软件画面比较技术,实时或后台自动提取切换镜头转换帧,见图所示,数字媒体资产管理,26,编目工作方式,媒资系统数据编目必须同时支持自动和手动两种方式还可以通过422协议,读取磁带上的U bit或IC芯片信息,实时或后台捕获画面获取转换帧自动编目的另一个应用是自动继承业务系统中产生的元数据,如素材的压缩
13、格式、时码、人员信息等此外,编目系统还要支持通过浏览高或低码流数据,手动选取关键帧,或按时间间隔生成序列关键帧编目的内容有些是非常简单的物理特征,而有些则需要编目人员具有高度的专业知识才能完成标引;用户可以根据自身的需要进行多层次编目引入编目签章和审核签章的概念,用于控制编目流程与编目质量,数字媒体资产管理,27,2.数字媒体资产的检索技术,检索是系统的窗口,是数字资产再利用的关键,随着数字媒体资产内容的日益益积累,如何在海量视音频资料中快速检索出所需要的内容就显得至关重要传统的基于文本信息(即关键词)的检索方法是建构于关系型数据库基础之上的,是结构化的方法,因为其述能力有限、主观性强、手工标
14、注等原因,已经不能满足海量数字媒体资产检索的需求目前基于内容的视频分析和检索技术成为应用的热点,数字媒体资产管理,28,检索系统的流程,通过浏览器直接进入检索页面输入检索条件或节目信息,查询浏览库存节目数据检索命中结果可立即浏览低码率视音频信息,并可察看关键帧信息满足需要的节目可提交下载申请,或设置入点、出点信息后提交该片段下载申请,数字媒体资产管理,29,检索系统的数据流程,(1)发出检索指令(2)传递给应用服务器解析(3)查询数据库检索(4)传递回WEB服务器(5)WEB服务器传递给用户,(6)查看流媒体数据指令给应用服务器(7)URL文件定位给流媒体服务器(8)从媒资在线存储区找到媒体文
15、件(9)通过RTP/UDP将流媒体文件数据传递给用户端,数字媒体资产管理,30,检索系统的功能要求,1快速整合检索能力2支持混合检索并提供友好的查询界面3向用户提供多种用途的检索服务适应网络化、智能化和个性化的检索方式是视音频内容检索实现的目标,数字媒体资产管理,31,检索方式,1客户端检索软件与WEB检索方式采用检索客户端软件的优势在于部分软件功能较易实现,对于诸如访问权限、检索计费的处理较为容易;检索界面的专用性很强等对于网络规模较大,甚至是广域网环境,则通常需要采用WEB检索方式,以降低客户端检索软件的安装和维护成本另外,可以在存储管理系统中引入电子商务的理念,同时加入检索计费、会员管理
16、、超市下载、远程编辑等,为以后系统的扩展打下良好的基础,数字媒体资产管理,32,检索方式,2先控词检索方式检索系统通常采用自然语言、先控语言以及后控词表等几种方式进行检索控制所谓“先控”是指在输入标引阶段就对自然语言语词先行控制,包括:同义词、准同义词、同形异义、一词多义等,数字媒体资产管理,33,检索方式,先控方式相对自然语言具备以下优点:1)促使主题表达的一致性,能有效防止同一主题资料的分散2)减少主题表达的含糊和失真,能有效防止不同主题资料的混同3)有助于进行全面广泛的检索,能较好的满足扩检、缩检和改变检索范围的要求4)减轻检索者设想同一检索课题所有相关检索词的负担,大大加快检输出速度但
17、也存在下列缺陷1)先控方式专指度普遍不足2)编目标引负担较重,资料加工处理速度慢、费用高3)先控语言过于专业,易用性较差4)词表、类表的编制及维护难度很大,费用较高5)对新生事物、新概念反应迟钝,控制滞后,甚至“失控”6)检索系统将自然语言语词转换成词表或类表中的规范词难度较大,数字媒体资产管理,34,检索方式,3自然语言检索方式自然语言是人们日常用于交流的语言,其“不受控制”的特点产生以下优点:1)表达文献主题和情报需要可以达到完全专指2)是人们熟悉的、习惯的语言,易用性好3)不依附于词表数据库,具有良好的兼容性且标引成果可以共享4)文献编目标引负担较轻,输入速度快且费用较低5)自然语言可以
18、方便、及时地反映新概念、新术语和新事物,不会滞后或失控目前的媒体资产管理系统大多采用自然语言的编目检索方式,但是也存在一些自身难以克服的缺陷:1)全面检索某一主题难度较大2)难免产生检索噪音,影响检准率3)扩检、缩检和改变检索范围较困难4)检索者负担较重,检索输出速度慢、效率低,数字媒体资产管理,35,自然语言检索方式,由百度技术支持的ChinaRen“孙悟空”搜索引擎将帮助您如愿以偿,使网站对您的信息查寻要求有问必答。智能化的“孙悟空”搜索引擎具有独特的解析软件,用户即使输入一个问句搜索引擎也能够清晰地分析出问话里的关键词,而查找到相应的能够回答问题的网站。因此,使用“孙悟空”搜索引擎在Ch
19、inaRen网站上搜索时,您可以用自己习惯的语言提出问题,如“谁的个人主页最酷?”,“未来十年什么行业最热门?”,“哪里的手机价钱最便宜?”,搜索引擎前端的智能分析系统将自动对您问题中的关键词进行检索,然后搜索到您需要的内容。,数字媒体资产管理,36,检索方式,4后控词表检索方式“后控”是指在系统输入阶段不进行控制,而在系统输出阶段进行一定的控制,它把“控制”不放在标引阶段,而放在检索阶段。后控检索一般过后控词表来实现,是利用先控语言的原理和方法编制语言的自然语言的检索用控制词表主要是对自然语言中大量存在的等同关系、等级关系和部分的相关关系进行控制和揭示,通过这些措施达到对自然语言检索中各种不
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第5章 数字媒资的编目与检索ppt课件 数字 编目 检索 ppt 课件
链接地址:https://www.31ppt.com/p-1428555.html