网络智能搜索引擎概要课件.ppt
《网络智能搜索引擎概要课件.ppt》由会员分享,可在线阅读,更多相关《网络智能搜索引擎概要课件.ppt(83页珍藏版)》请在三一办公上搜索。
1、第10章 网络智能搜索引擎,主要内容10.1 网络智能搜索引擎概述10.2 网络智能搜索引擎的结构原理10.3 网络智能搜索机理10.4 网络智能搜索策略10.5 网络智能搜索引擎的关键技术10.6 网络智能搜索引擎实例分析,10.1 网络智能搜索引擎概述,(一) 搜索引擎发展简况搜索引擎:是指通过网络搜索软件或网站登陆等方式,以一定的策略在互联网上搜集和发现信息,并将Web上大量网站的页面收集到本地,经过加工处理和组织,从而能够对用户提出的各种查询做出响应,提供用户所需的信息。,1993年底,NASA,Repository-Based Software Engineering (RBSE)
2、spider第一个索引Html文件正文的搜索引擎,第一个使用关键词串匹配的引擎;,1994年7月,Michael Mauldin,Lycos第一个现代意义上的搜索引擎;,1994年,David Filo和杨致远,Yahoo成功地使网络信息搜索的概念深入人心,揭开了搜索引擎大发展的序幕。,(二)搜索引擎的智能行为分析 1、影响搜索引擎性能的最关键因素:,(1)信息的采集。搜索过程应在一定条件下选择最优路径沿着具有相关主题的链接进行搜索,这要求搜索引擎能够识别相应的网站和网页信息资源,是一种智能性的体现。,(2)信息的加工处理与组织。当采用合适的算法和策略从网络信息资源中获取到原始超文本信息后,还
3、需要从中抽取出有价值的信息内容进行索引存储,构建信息数据库。,(3)信息检索。信息检索查询为用户提供直接服务,它根据用户的信息需求,完成对数据库的查找过程,并以一定的方式向用户提供查询结果。信息检索是搜索引擎最终的价值体现,是影响搜索引擎性能的关键环节。,2、搜索引擎的智能性分析:,(1)检索技术的智能化, 机灵的网络蜘蛛,智能搜索引擎的设计网络蜘蛛能遍历整个因持网,自动完成在线信息的索引,还能通过启发式学习采取最有效的搜索策略,选择最佳时机获取从Internet上自动收集、整理过的信息。同时,它能够对网页内容的相关性及该网页所包含的链接质量等做出判断,质量较差或内容不大相关的网页将不被选取,
4、从而保证信息来源的质量,提高检索效果。, 语义检索及自然语言理解技术,语义检索是一种建立在文献概念相关关系基础上的检索。通过抽取能够描述文献内容的概念(如用文中的关键词或与之相应的主题词)建立一种语义索引,而用户在系统的辅助下选用合适的词语表示自己的信息需求,然后在两者之间执行概念匹配,匹配在语义上相同、相近、相包含的词语,从而实现信息的深度检索,借助自然语言理解技术,智能搜索引擎能够实现基于知识(或概念)层面的检索,并且对知识有一定的理解与处理能力,能够实现分词技术、同义词技术、概念搜索、短语识别以及机器翻译技术等。因而智能搜索引擎具有信息服务的智能化、人性化特征,允许用户采用自然语言进行信
5、息检索,并能为用户提供更方便、更确切的搜索服务。, 检索对象形式的多样性,智能搜索引擎具有跨平台工作和处理多种混合文档结构的能力,能处理HTML(HyperText Markup Language,超文本标志语言)、SGML(Standard for General Markup Language,通用标志语言标准)、XML(eXtended Marked Language,扩展标志语言)文档以及其他类型的文档,如Word、WPS等。另外,智能搜索引擎还支持多语言检索,允许用户用中文输入查询英文或其他语言的信息。, 人工/机编混合型目录,它呈两种形式:人工进行质量控制的机编目录和运用智能技术检
6、索的手编目录。这种混合型目录能够弥补机编目录和手编目录的缺憾,提高了网页索引覆盖率。,(2)检索结果处理的智能化, 保存和利用用户的使用记录,分析检索结果的相关度,例如访问量排序和基于超链接的排序。搜索引擎记录其所搜索到的Web页面的被点击次数(即访问量),从而判断该Web页面被访问的频率。这是一种由公众集体确认网站重要性的方法,具有一定的客观性与公众性。而基于超链接的排序则是利用Web页面之间的引用关系,综合考虑Web页面被引用次数以及所引用页面的相关度来判断本页面的重要性。, 检索结果的转换过滤,根据一定条件对检索结果进行优化过滤的过程,如信息格式的支持与转换。采用信息过滤技术可减少重复信
7、息和垃圾信息,应用聚类技术对检索结果进行联机聚类等,从而“精简”检索结果。, 检索结果的知识提取,搜索程序具有机械性及其对网络用户的透明性,而网络用户缺乏搜索程序所规定的概念和语词符号,这就使得用户的检索具有一定的模糊性,进而降低检索结果的满意度。因此,智能搜索引擎通过对用户需求进行分析研究,跟踪用户的兴趣爱好,建立用户模型库,利用用户知识对检索结果进行一定程度上的知识提取,完成检索结果的集成。,(3)检索服务的智能化,在检索服务方面,检索质量的提高依赖于对网络用户信息需求的分析与挖掘,最基本的在于确定提问词中隐含的“意义范围”,即词语在不同领域的含义。只有理解查询词的含义范围,理论上将检索范
8、围缩小到一个适当的相关范围,检索才能精确。同时,试图理解用户的意图,并相应地将检索结果分类编排,便于用户的选择利用。智能搜索引擎的智能化包括:个性化服务、主动性、智能辅助、人机接口智能化。,10.2 网络智能搜索引擎的结构原理 10.2.1 智能搜索引擎总体框架模型及功能,智能搜索引擎模型采用扩展式的客户端/服务器结构,包括表示层、应用层和数据层三层应用服务(模型如图10-1所示),(1)表示层,表示层主要的功能是给用户提供一个友好的人机界面,管理和实现用户和系统的交互,将用户提交的检索请求传递给应用层和数据层所在的服务器,同时负责接收服务器端的检索结果,并显示给用户。,(2)应用层,应用层是
9、实现智能搜索的主要应用逻辑,由智能搜索模块与用户模型库两部分组成。其智能搜索模块能实现对用户搜索的“代理”,“理解”用户的提问,主动获取满足用户需求的信息并推荐给用户。用户模型库能与智能搜索模块进行交互,是其功能实现的依据和保障。, 智能搜索模块,智能搜索模块的结构如下图所示,由各种Agent及共享知识库、本体库、信息库构成。,用户Agent,用户Agent能对用户输入的检索提问进行解析、细化,形成初步检索式;能接收用户对检索结果的反馈;通过检测用户与系统交互过程中用户的检索行为,分析用户行为的意图,获取用户感兴趣的相关信息及其感兴趣的程度;将检索结果提交给用户。用户Agent拥有知识,了解用
10、户的需求和爱好,能够辅助用户智能地完成某个任务(浏览或检索),并具有学习和适应能力。同时它受用户的控制,用户可以观察它的活动状态,可以临时性地暂停或恢复其活动,甚至将它永久性地撤销。,学习Agent,处理Agent,学习Agent负责对用户Agent收集的用户信息进行分析和处理,实现用户模型的建立及其动态维护。,处理Agent包括4个方面的功能,一是对检索提问进行预处理,在共享知识库中查找相关或相似信息,或借助本体知识对检索提问进行规范化处理;二是对搜索Agent在远端搜索到的信息进行处理并存入本地信息库;三是对搜索到的结果按用户需求进行分析、过滤,并将有用信息选择、推荐给用户;四是定期根据用
11、户的偏好对本地信息库进行整理、分类。,检索Agent,搜索Agent,控制Agent,检索Agent负责执行本地信息库的检索,完成本地信息库的知识检索服务。,搜索Agent负责执行远程搜索,获取符合检索提问的相关信息,同时对用户感兴趣的站点进行监测,以便通知用户所监测站点的最新更新内容。,控制Agent的主要工作是对各个Agent的执行顺序和交互行为进行控制和协调。,本体库,本地信息库,本体库存储领域集、关键字集以及本体的相关知识等。,本地信息库主要存储搜索Agent从远端带回的并经过处理了的信息。对于检索提问,若在本地即能搜索到所需信息,则能大大提高搜索效率。, 用户模型库,用户模型库包括用
12、户知识模型和领域知识模型。领域知识模型主要包含有关领域的知识,可以帮助实现处理Agent对用户检索提问的预处理;同时领域知识模型可以存储相关领域的成功搜索案例。用户知识模型中的信息则是有关系统用户的信息,如用户的知识背景、兴趣爱好等个性描述信息。搜索引擎通过和用户进行交互操作,对用户的信息进行收集、学习等方式,建立用户的用户知识模型和领域知识模型,并及时发现用户信息的变化以更新用户知识模型,适应用户需求的动态变化。,(3)数据层,数据层主要由信息搜集与处理模块构成(结构如图10-3所示)。该模块的工作原理是:通过网络爬虫或网络机器人、网站提交等方式收集网页建立原始网页数据库,然后利用领域知识库
13、和兴趣库对原始网页数据库通过信息抽取与组织模块形成各个类型的网页索引数据库。其中信息抽取与组织模块主要负责分析、提取原始网页数据库中存储页面的相关信息,依据一定的相关度算法及数据挖掘与聚类技术,建立各个类型的网页索引数据库。数据层能够实现对Internet上的信息的“先”处理,即将数据“归类”,以简化搜索Agent的搜索过程,并利用兴趣库及领域知识库,结合用户的兴趣,以便实现主动推送服务及专题信息的搜索。,10.2.2 智能搜索引擎系统的工作流程,(1)用户提交检索请求:用户Agent接收用户提交的检索请求,对其进行细化,然后把初步处理后的结果交给学习Agent。,(2)用户模型库的建立或更新
14、:若该用户是初次检索,则学习Agent通过分析、学习其检索行为建立用户模型库;若用户不是初次检索,则学习Agent根据学习到的内容对用户模型库进行更新。,(3)规范化检索提问:处理Agent接收到检索提问后,参照用户模型库中的类似成功检索案例,以形成全面有效的检索提问进行检索;若用户模型库中无类似成功检索案例,则依据本体库中知识对检索提问进行规范化处理,找出出现该关键字的各个领域及在该领域下的关键字的含义。然后处理Agent将处理后的检索提问返回到用户Agent,由用户根据自己需求选择或确认处理后的检索提问,并再次依序往下传递检索提问。当然,用户可以设定无需将处理结果返回,而由系统全权代理。,
15、(4)检索信息:处理Agent先将检索提问传递给检索Agent,进行本地信息库的就近搜索,若找到相关信息则直接将结果返回处理Agent,比如需求相同的不同用户提出相同检索任务,则后来用户的检索提问可以“照搬”先前用户的检索结果,即在本地信息库进行搜索,从而提高检索效率。若检索Agent在本地信息库没有检索到相关信息,或者搜索到的信息的相关性低于指定阈值(阈值可由用户或系统设定),则处理Agent将检索提问传递给搜索Agent,搜索Agent到远端进行搜索。最后搜索Agent将检索结果返回到处理Agent。,(5)检索结果的处理:根据用户的个性化需求,处理Agent对返回的检索结果进行分析、过滤
16、,并将结果推荐给用户。若检索结果来自远端搜索,则处理Agent还要将检索结果存入本地信息库。,(6)用户反馈信息的学习:应用层将检索结果提交给用户后,学习Agent对用户Agent收集的用户的相关反馈信息进行学习,以存储相关结果,如成功搜索案例,并依据用户的反馈信息进行自学习,完善自身功能,如调整由系统设定的相关性阈值等。,(7)相关信息的主动推荐:根据用户模型库记录的用户的相关信息,当用户完成一次检索后,按照用户设定的推送服务周期,智能搜索引擎能主动依据用户需求完成(1)至(6)步信息搜索过程,而其检索提问及检索提问的修改由系统自动进行,一旦检索到相关信息,则以一定方式推荐给用户。,10.3
17、 网络智能搜索机理,智能搜索引擎进行搜索时要构设知识库和用户档案库。知识库是对信息综合、提取、概括与分析后产生的知识集合,它提供智能搜索引擎理解、处理用户提问的资源标识。用户档案库则用来存储用户注册的基本资料、用户访问记录、用户兴趣偏好、用户访问行为等用户信息。,智能搜索引擎内部共设有语义理解、指令组织、访问登记、兴趣识别、信息过滤、信息加工、页面定制七大功能模块。在具体的搜索过程中,语义理解模块依据知识库提供的资源标识,对用户提问进行分析、推理,然后由指令组织模块发出Http请求的搜索指令,同时由访问登记模块对用户提问、定题需求等进行用户角色与信息行为登记,将用户的访问记录、兴趣爱好等信息传
18、递给用户档案库保存起来。一旦产生新的信息资源,智能搜索引擎便由兴趣识别模块激活,抽取用户的信息需求,进而由指令组织模块形成推荐推送服务的检索指令。在从网络信息库中搜索到相应的信息数据后,返回给智能搜索引擎的信息过滤和信息加工模块进行过滤、排序、组织、加工,然后经页面定制模块定制信息页面,将检索结果或推送信息提供给用户使用。,智能搜索引擎以用户需求为先导来进行信息搜集和信息加工,根据用户特定的需求以及在一段时期内的偏好为衡量标准来筛选信息;用户界面提供友好的自然语言查询,当用户的查询请求不明确时,系统会利用知识库中的推理机制推断用户的潜在需求,选择与用户习惯最相近的需求进行检索;检索完成后允许用
19、户对结果进行满意度和相关度评价,这些评价被传回给知识库,一方面修正用户的兴趣加以学习,另一方面完善信息加工和信息相关度匹配的规则,以为下一次检索提供更可靠的保证。,(1)从字面匹配到概念匹配,单纯的字面匹配方式容易检索出大量冗余信息、误导和欺骗用户的信息,或者得不到任何信息。智能搜索引擎引入概念匹配的检索方式,对关键词进行有效控制,可以实现智能检索。,概念匹配(又叫语义检索、语义交互),是一种建立在信息的概念相关关系基础上的检索,它通过建立某种语义索引,对用户进行交互式的导航,从而实现信息的深度检索。基于概念检索的智能搜索引擎必须建立语义网络的相关知识库,在标引阶段,自动抽取文档中能表达内容的
20、概念,据知识库标引为相应的概念或分类号;在检索阶段,对用户输入的检索词或提问式进行分析,取出其语义,有效识别用户的检索请求和相应概念,帮助用户选用合适的词语表达信息需求,再与标引库进行概念匹配,匹配在语义上相同、相近或包含的词语,从而检索出用户所需信息。,(2)从提供表层信息到挖掘深层信息,目前的搜索引擎沿用传统的关系数据库处理信息的思想,适于处理静态的、结构化的信息,其检索功能只能向用户提供表层信息,只是为了帮助用户从大量的数字化资源中找到满足用户需要的信息。智能搜索引擎使用网络挖掘技术能使用户摆脱表层信息的干扰,对网络数据作更深层次的分析与挖掘,使信息按内容特性聚类,体现一定的知识性。 网
21、络挖掘不但能从网络的链接关系及组织结构中挖掘知识,还能对用户访问网络时的信息和用户个人信息进行挖掘。正是对网络知识和用户知识的深层次分析,智能搜索引擎才能知道用户的需求以为用户提供相关性高、知识性高的信息。,(3)从满足表层需求到预测用户需求,索引式搜索引擎通过关键词检索方式满足用户比较明确的检索目标,分类目录式搜索引擎则通过帮助用户从分类角度查找信息,适用于用户没有明确的目标而只想通过浏览方式了结一定信息的情形。而智能搜索引擎不但能满足用户提出的表层信息需求,还能分析用户潜在的信息需求,预测用户的信息需求。 智能搜索引擎通过与用户交互,获取用户信息,以准确理解关键词的含义和用户的检索目标。
22、另外,智能搜索引擎具有学习能力,能学习其它智能系统,及跟踪、分析用户信息,在实践中自主更新知识,实现“自我知识”的增长。,(4)从大众化服务到个性化、专业化服务,传统的搜索引擎由于基于字面的简单匹配,对于所有用户的相同关键字的检索,都会返回相同的结果,忽略用户的真正需求及其专业性质,这种非个性化、非专业化的检索方式不能快速选定用户感兴趣的主题,满足用户需要。而智能搜索引擎则可以为用户提供个性化、专业化的服务,方便用户的检索。,智能搜索引擎能实现信息的智能推拉,使用户可以选择服务方式和资源,使检索结果更贴近用户需求,从而提高主动服务的能力,实现完善的个性化服务。用户还能根据自己的需要,设置个性化
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网络 智能 搜索引擎 概要 课件
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-1866592.html