互联网信息采集系统用户手册.docx
《互联网信息采集系统用户手册.docx》由会员分享,可在线阅读,更多相关《互联网信息采集系统用户手册.docx(30页珍藏版)》请在三一办公上搜索。
1、军犬互联网信息采集系统用户手册V5.0第一章:系统介绍31.1软件简介31.2互联网信息采集与挖掘31.3互联网采集系统流程图31.4系统应用领域:41.5 软件特点41.6 系统配置要求131.7 系统性能13第二章:使用手册142.1综合设置142.1.1数据库管理142.1.2表单管理142.1.3频道管理182.1.4模板管理192.2信息采集192.2.1站点基本属性192.2.2提交访问数据202.2.3站点链接预览212.2.4 采集过滤222.2.5 分页模板222.2.6 附件采集设置232.2.7新闻自动识别232.2.8字段提取设置242.2.9 字段采后处理252.3站
2、点管理252.3.1 采集站点管理252.3.2扫描采集源252.3.3采集日志262.4 信息管理262.4.1信息管理262.4.2附件管理272.4.3记录导入272.4.4信息导出282.5信息发布282.5.1登录发布服务器282.5.2获取发布权限的信息292.5.3新建发布表单发布映射292.5.4发布表单映射管理292.5.5发布频道映射管理30第一章:系统介绍1.1软件简介信息采集是指利用计算机软件技术,针对定制的目标数据源,实时进行信息采集、抽取、挖掘、处理,从而为各种信息服务系统提供数据输入的整个过程。军犬信息采集专家是一款基于人工智能的自动学习技术,功能强大、简单实用的
3、互联网信息采集与监控软件。1.2互联网信息采集与挖掘要求从互联网上对特定目标数据源或不特定目标数据源进行采集与监控,并对信息进行结构化抽取保存为本地结构化数据库,然后按业务流程需求与其它模块结合,导入与应用并服务于到电子行业平台。互联网数据采集与挖掘技术是指利用计算机软件技术,针对定制的目标数据源,实时进行信息采集、抽取、挖掘、处理,从而为各种信息服务系统提供数据输入,并按业务所需,进行数据发布、分析的整个过程。1.3互联网采集系统流程图第一步:确定采集任务。第二步:每个采集任务,我们有多个目标数据源可供采集。第三步:针对不同的目标数据源,进行不同的采集配置,以确保能采集到数据。第四步:调度采
4、集任务,与目标站点同步更新,增量采集。第五步:采集到数据结果,完成数据异构到同构的过程。第六步:通过发布服务器,将数据发布到应用平台。1.4系统应用领域:1、搜索引擎与垂直搜索2、综合门户与行业门户3、电子政务与电子商务4、知识管理与知识共享5、企业竞争情报系统6、BI商业智能系统7、信息咨询与信息增值8、信息安全和信息监控1.5 软件特点(1)、过滤干净,智能化抽取正文,且图文关联图:采集的目标源图:采集后“干净”的正文结果(2)、数据导出接口丰富,可以将数据导出成各种主流关系型数据结构。(3)、配置简单对于新闻资讯采集,只需输入待采集目标网站的地址或某个主题页面地址,软件即会自动学习网站的
5、风格,并自动提取网站的资讯,无需配置模板,目标网站风格发生变化,软件自动学习。对于数据采集软件提供了通俗易懂的站点配置向导,维护人员稍加培训即可配置出任何的信息采集。对于复杂的采集过程,通过一张采集卡脚本即可实现信息的自动采集与监控。 图:输入“网址”,完成配置工作图:支持关键字采集,直接输入关键字,一步设置输入“关键字”,完成配置工作(4)、所采即所得,所采即可见图:所采即所得,所采即可见(5)、增量采集与自动更新增加采集:对于初次采集目标网站,软件支持完全采集;而对于已采集过的站点支持增量采集。 支持自动更新:自动检测站点是否发生更新,并不会遗漏任何一个重要的信息。 (6)、采集结果自动排
6、重不是利用简单的规则判断,而是利用内容的相似性进行排重判断,准确性高,不会因为标题或内容的少许变化而产生漏判,即使把标题进行了改头换面,系统也会正确判定。(7)、内置强大的信息监控可以通过一个关键字广域监控互联网上任何一个站点上的相关信息。也可以通过设置监控频道监控任何站点所采集到含有关键字的信息。对于数值字段可以设置监控误差监控数值出现在一定范围内的信息。信息监控达到字段级。您可以对任何一个采集目标网站设置监控属性,监控周期达到了秒级。对于发生变化的信息可以在短时间内采集到本地。图:独有的监控功能,可能对采集后的结果进行进一步监控与过滤强大的站点管理工具可以对所有采集对象进行集中管理和各种操
7、作图:对所有采集对象进行集中管理和各种操作图:随心所欲自定义导航与分类图:综全的选项配置,提升采集的性能图:对采集后的结果可以马上进行修改与编辑(8)、支持多种编码支持多种网站的信息的编码,GBK、BIG5、UNICODE、UTF8,软件会自动转换成GBK码进行统一的处理。软件即会自动识别网站的组织结构,自动识别网站的编码。 表单管理,随心所欲自定义表单,方便采集不同的内容,如采集软件用单独的表单,采集图片用图片表单。(9)、信息导入导出随心所欲提供信息导入导出与其它软件可作无缝连接 ,如CRM OA 软件提供有强大的信息记录导入导出功能,您可以对任何一个频道、一条记录进行导入与导出。可以导成
8、Excel/Access等,也可以直接导到指定的数据库。与信息发布服务器结合使用可以将信息发布到任何一个地方。 (10)、支持阅读模板任何一种信息类型,软件都会自动创建一个阅读模板方便了您快速阅读;任何信息您可以对任何一种信息表单定制一款漂亮的阅读模板,也可以对任何一个频道设置不同的阅读模板。 (11)、支持多页面内容重组对于目标数据源的一篇文章在目标网站上分页显示,系统能自动对其重组.软件运行稳定、采集速度快、占用系统资源少历经多次改造的软件采集底层模块运行稳定、采集速度快,点用系统资源少。可多线程并发运行,而不占有过多的系统资源。采集速度快到瞬间到位。软件完全可以实现7*24小时不间断无人
9、值守的信息采集。更多细节功能有待于您在使用中去体验。 (12)、其它特点列表:、支持多种语言:支持简体中文、繁体中文、英文、日文、韩文等多国语言、支持多种站点类型:包括html与rss、支持登录、验证后采集、软件支持需要登录与需要验证码的网站信息采集,采集过程完全仿人工。 、支持附件采集包括图片附件采集、多媒体附件采集、音视频附件采集、附件与正文自动映射与关联、完全结构化抽取将网页的非结构化数据抽取成特定的结构化信息数据。网页搜索是以网页为最小单位,基于视觉的网页块分析是以网页块为最小单位,垂直搜索是以结构化数据为最小单位。然后将这些数据存储到数据库,进行进一步的加工处理,如:去重、分类等,最
10、后分词、索引再以搜索的方式满足用户的需求。整个过程中,数据由非结构化数据抽取成结构化数据,经过深度加工处理后以非结构化的方式和结构化的方式返回给用户。 、数据保存到本地,您可以随时查阅信息。 采集到信息自动保存到本地数据库,您可以随时查阅信息。 、多线层、多任务、支持海量数据采集10、软件实用、易用、功能强大11、可移植、可扩展、可定制1.6 系统配置要求 需要WindowsNT4/ Windows 2000 Server 或更新的操作系统。 需要 Microsoft SQL Server 7/ 2000或其它ODBC接口 硬件平台:intel xeon 1G 以上CPU,1000M 以上RA
11、M,硬盘空间40GM 以上1.7 系统性能l 支持多线程采集。l 单机在数据采集在G级以上。l 数据与数据源同步更新小于10秒级。l 数据同步发布小于10秒级。第二章:使用手册2.1综合设置2.1.1数据库管理新建数据库通过“系统(S)”主菜单下的“新建数据库”功能菜单,您可以创建一个全新的信息采集与管理数据库。新建的数据库,默认会创建一个新闻表单,该表单主要用于文章、新闻等资讯信息管理,该表单不允被删除。我们建议:您在新建数据库时希望能将数据库文件存储在与操作系统不同的驱动盘下,这样数据库中的信息内容会更安全一些。备份数据库通过备份数据库的功能,您可以将当前正在使用的数据库压缩并备份到另一个
12、目录下。以备以后的使用。压缩数据库由于桌面版的软件版本使用了微软的ACCESS数据库,该数据库在您删除记录时不会自动释放已删除记录所占用的空间。所以需要您不定期地对当前正在使用的数据库进行压缩,以减少数据库占用硬盘资源的空间。对于SQL Server版本的软件,则无需使用压缩数据库的功能。软件也将该功能屏蔽。2.1.2表单管理表单的概念互联网信息采编发系统中的表单等同于数据库中的表。通俗地说需要为每种信息类型创建一个存储空间。不同的是为了能够对数据库中的所有表单记录进行统一的管理,需要在各个表单中预置一些字段,通常这些字段含以下几个部分:显示控制信息字段: 密码字段、文字颜色字段、文字背景颜色
13、字段、显示图标字段后续跟踪信息字段:信息来源地址字段频道信息字段:频道信息,监控频道信息 创建表单下面以创建一个图书管理表单为例,逐步向您说明如何创建一个属于自己的管理表单。找到主菜单栏中的“工具”=系统表单管理菜单,在弹出的在表单管理器中点击“新建表单”按钮。在“表单标题”编辑框中输入“图书表单”,在“表单名称”编辑框中输入“tblBookSheet”。注意:如果“表单名称”或“表单标题”为空将不能成功地创建表单。 点击“保存”按钮,这时系统会提示您已成功地创建了一个名称“图书表单”的表单,并在图书表单下下挂三个字段“记录编号”、“频道名称”、“源文地址”。这个三个字段是软件中对一个表单中任
14、何一条记录进行管理的必要的字段。您不可删除或更改名称或属性。记录编号用于标识表单中任何一条记录的唯一的标识。频道名称用于标识该记录从属于哪个频道;而源文地址则用于标识信息来源于何处。表单标题该字段用于通俗易懂地标示表单。必须输入,我们建议您表单标题做到整个数据库是唯一的。表单名称该字段用于在数据库中创建对应表单的名称,该字段的值不能与数据库中其它的表单名称重复需要在数据库中唯一。字段值长度不能超过20个汉字(40个英文字母),命名规则同Windows中的文件命名规则相同。可以取与表单标题相同的名称,但建议采用tblXXXSheet作为命名规范。阅读模板该字段用于标识该表单的信息内容阅读模板的路
15、径,可以是文件路径名称如:e:Quickreaderreadmodeltblbooksheet.html,也可以是网络上的某个路径名如: Files采集软件QuickReader,那么该相对路径相当于cPrograme Files采集软件QuickReaderreadmodeltblbooksheet.html)如果没有该表单对应的阅读模板,“阅读模板”字段可以不输入任何值。等最后创建完该表单所有字段后利用软件提供的“创建模板”进行创建。 添加字段以创建图书信息管理表单为例,假设管理图图需要以下字段:字段标题 字段名称 说明 属性 图书名称 fldBookName 用于保存图书的名称 字符型,
16、长度40,查重键,主题键 作者 fldBookAuthor 图书作者 字符型,长度30 购买日期 fldPurchaseDate 可用于控制或统计 日期型 图书价格 fldBookPrice 价格 浮点型 借阅人 fldUserName 当前借阅用户名称 字符型,长度40 借阅日期 fldBrowDate 借阅日期 日期型 图书简介 fldBookMemo 有关该图书的说明 备注型 选中刚才新建的“图书表单”后,点击“新建字段”按钮,将在“图书表单”下增加一个结点,编辑框中预输入了“新字段”,你可以在这里输入字段标题,也可以在列表中的“字段标题”中输入。现在,在结点编辑中输入“图书名称”后,点
17、击列表中的“字段名称”在编辑框中输入“fldBookName”。选择“字段类型”为“字符”,“长度”输入40,“设为查重键”选择“是”,“允许为空”选择“否”。点击“保存”按钮。如果没有报错表明系统已成功地图书表单上增加了“图书名称”字段。可按照上述图书管理的需求表格,完成在图书表单的创建工作。 下面将对表单各个属性进行详细地说明。 字段标题 该字段用于通俗显式地标示字段的名称,在同一个表单中字段名称不能重复。最大长度不能超过50个字节。字段名称该字段用于在表单中隐式地标示字段名称,在同一个表单中字段名称不能重复。最大长度不能超过50个字节,命名规则同Windows中的文件命名。建议采用fld
18、XXX作为该值的输入规范。字段类型目前字段类型有:字符型、日期型、整型、浮点型和备注型5种字段类型,可以根据实际需要从这5种类型中选择。不同类型的字段在输入字段值时将有不同的控件和限制。可以在以后对其进行修改。字段长度 字段长度只能“字符型”的字段有效,其它类型输入长度是无效的,对于字符型长度值默认为50个字节。设为查重键该字段可以选择为“是”或“否”。可根据实际需要设置一些字段为查重键。如我们在“图书表单”中设置“图书名称”为查重键,这样,以后在输入每一本书的属性时,系统将查找是否存在有相同图书名称的记录。主题字段该字段可以选择为“是”或“否”。用于标识一条信息中的最主要的信息的字段。如新闻
19、表单中的新闻标题。我们在“图书表单”中可以设置“图书名称”为主题字段。识别标签该字段将用于文档识别、网络信息采集时对该字段值的自动识别。如以后需要自动从文本中识别“图书名称”的值,则可以输入“图书名称;名称;图书;BOOKNAME;”等作为图书名称字段的识别标签,各个标签之间以“;”或“;”分隔。默认值 该值将用于在识别、录入或采集时没有得到该字段的值是将用默认值填入。如有字段“性别”,在没有识别到“性别”字段的值时,将用默认值“女”或“男”作为“性别”的值。在列表中显示用于控制属性字段在概览表单内容时是否在列表中显示。列表宽度用于控制属性字段在概览表单时显示在列表中的长度。对齐格式用于控制属
20、性字段在概览时在列表中的对齐格式,有三种选择:左对齐、居中对齐和右对齐。可选择以前的值用于控制在录入该表单的资讯时,该属性字段可否从以前录入的值中选择一个。如有属性字段“民族”,则在录入记录信息时遇到该属性字段既可以手工输入也可以从以前的值中选取一个。允许为空用于控制属性字段是否允许为空,如果设置不空时,在录入或采集该表单的资讯记录时,发现该字段没有值的记录将被丢弃或要求录入该字段。如“图书表单”中要求“图书名称”不为空,那么如果“图书名称”为空的话,该记录就变得没必要了。修改属性在使用表单的过程中,还可以表单的属性进行修改与编辑,但不能修改表单名称和字段名称。修改后的属性可以立即在使用中生效
21、。特别提示:在信息采集的过程中软件不允许您对表单进行修改。删除表单通过“删除表单”按钮可以删除掉一些不再使用的表单。注意:删除表单时,表单中的所有记录将被同时删除,另外建立在该表单基础上的所有栏目也将被删除。删除字段通过“删除字段”按钮可以删除掉一些不再使用的属性字段。注意:删除字段时将同时删除表单中该字段的所有数据。上移下移字段您可以通过“上移”按钮将表单中的一个字段上移或下移到到一个指定的位置。以改变字段在列表与阅读模板中显示顺序。 创建阅读模板您可以随时使用“表单管理器”中的“创建模板”功能为某个表单创建一个由系统生成的阅读模板。阅读模板主要是便于您快速阅读信息。您也可以自己一个漂亮的阅
22、读模板。如何创建阅读模板,请参照阅读模板一节。远程表单管理远程表单管理对于使用了互联网信息采编发系统 的用户才会显示。对于普通的用户不会显示有该节点。主要用于管理远程发布服务器上的分配给指定用户允许使用的发布表单。只有在发布服务器上分配给用户允许发布的表单后才会在该节点下显示有相关的表单信息。用户可以通过表单管理器来浏览远程表单的信息。但不能修改表单属性。2.1.3频道管理 创建频道选中一个结点作为新建频道的父目录,点击右键,在弹出的右键菜单上选择“新建频道”,在弹出的“频道属性”对话框中输入频道的名称,并选择一个表单,默认为“新闻表单”,我们选择前面表单管理中创建的“图书表单”。如果存在有该
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 互联网 信息 采集 系统 用户手册
链接地址:https://www.31ppt.com/p-1666293.html