会议文献开放资源采集与服务系统的元数据抽取.doc
《会议文献开放资源采集与服务系统的元数据抽取.doc》由会员分享,可在线阅读,更多相关《会议文献开放资源采集与服务系统的元数据抽取.doc(5页珍藏版)》请在三一办公上搜索。
1、会议文献开放资源采集与服务系统的元数据抽取Metadata Extraction for the Acquisition and Service System of Open Conference Literatures摘 要:在会议文献开放资源采集与服务系统中实现了自动抽取+人工校对的元数据抽取流程,并设计了一个自动抽取器。针对会议文献开放资源本身的特点,该自动抽取器集成了多个基础抽取模板,并易于构建针对某个会议文献集的处理模板,能实现对多种格式的文献进行自动抽取,具有较高的准确度。关键词:开放获取;会议文献;元数据抽取Abstract: We realize a metadata extr
2、action workflow of automatical extraction and manual proofreading in the acquisition and service system of open conference literatures and design an automatic extractor. In terms of features of open conference literatures, the automatic extractor integrates with a number of basic extraction template
3、s, and is easy to build a process template for literatures of a certain conference, it also can automatically extract literatures that have a variety of formats with high accuracy.Keywords: open access; conference literature; metadata extraction1 概述随着网络的迅速发展、学术交流模式的改变,网络上出现了大量可供用户免费使用的网络会议开放资源,例如:开放
4、期刊、机构仓储、会议录、科技报告、科学新闻、学术博客和研究社区等。会议文献开放资源采集与服务系统(以下简称采集服务系统)则实现了对会议文献开放资源的采集、标引、组织、保存和服务1。目前采集服务系统已经采集了2000多个会议的开放会议论文。每个会议都有数量不等、文档格式和排版格式都不尽相同的会议论文需要进行元数据抽取,所涉及的文档格式包括PDF、PPT、DOC、PS和HTML等,其中绝大多数为PDF格式的会议论文。目前国内外在如何快速、准确地从不同格式的文献中抽取元数据进行了大量的研究。文献2利用正则表达式规则对论文数据信息进行自动抽取,文献3描述了通过构造半结构化信息抽取器从HTML页面中提取
5、信息的方法,文献4利用机器学习模型从Office类型文档中自动抽取元数据信息。在PDF文献抽取方面。文献5通过样本学习生成抽取规则,利用抽取规则从PDF文档集中抽取出有用数据,文献6采用基于规则的匹配方法和基于格式的定位方法抽取PDF科技论文中的元数据信息。本文将首先介绍采集服务系统中的元数据抽取流程,然后描述元数据自动抽取器的设计与实现。2 采集服务系统的元数据抽取2.1 介绍在采集服务系统中,各类开放资源首先需要进行采集、分析和审核等处理操作,然后才能够被提交到用户平台。其中,资源采集具体实现了对包括用户推荐资源在内的各类开放资源的抓取和存储,资源分析则实现了对已采集资源的元数据抽取和标引
6、,资源审核是对已分析资源是否满足资源审核质量控制体系要求进行判断。采集服务系统中的用户平台则对通过上述处理的开放资源进行集成和发布。采集服务器系统中的开放资源处理流程见图1。用户推荐资源程序抓取资源资源采集资源分析资源审核用户平台采集服务系统资源建设人员用户图1 采集服务系统中的开放资源处理流程2.2 元数据抽取流程采集服务系统的元数据抽取基本要求是:从开放文献资源中抽取出能够描述资源本身的信息,例如标题、作者(包括姓名、机构、地址和email)、关键词、摘要、资助情况等信息。由于采集服务系统中的开放文献资源来源较广,要实现所有资源的准确自动抽取难度较大,而系统又需要得到质量较高的元数据。因此
7、在采集服务系统中,采用了自动抽取+人工校对的元数据抽取流程,详细的处理流程为:1)系统将采集到的某个会议不同格式的资源结果集保存到本地存储设备上。2)资源建设人员对结果集中的资源进行清洗,主要操作是对整本的文献集进行自动拆分,更改某些资源的名称或者删除不需要的资源。3)选择PDF抽取模板,通过自动抽取器,分别对PDF和DOC格式的文献进行自动抽取。4)系统找出对可能会出错的抽取结果,并提示资源建设人员对这些资源进行人工校对,增加、删除或者修改抽取结果。5)人工校对完成后,把该会议所有已校对的资源提交给资源审核流程。采集服务系统的元数据抽取流程见图2。 已采集未分析资源拆分更名删除已分析未审核资
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 会议 文献 开放 资源 采集 服务 系统 数据 抽取

链接地址:https://www.31ppt.com/p-2396128.html