网络检索技术.ppt
《网络检索技术.ppt》由会员分享,可在线阅读,更多相关《网络检索技术.ppt(53页珍藏版)》请在三一办公上搜索。
1、网络搜索技术,提纲,网络搜索概述搜索引擎的工作原理和体系结构搜索引擎的关键技术倒排索引相关排序搜索引擎的发展趋势,提纲,网络搜索概述搜索引擎的工作原理和体系结构搜索引擎的关键技术倒排索引相关排序搜索引擎的发展趋势,网络搜索概述,(1)网络搜索与传统信息检索的区别检索对象集的规模和更新速度不同 传统的IR的对象一般是规模相对有限、内容相对稳定的馆藏;而网络检索面对的是浩如烟海的web网页,而且网页的更新速度相当快,也存在网页被删除的情况。检索对象的预处理水平不一样 传统IR的检索对象是经过认真筛选和预处理的(人工选择、标引);而网页只能通过机器进行粗略的过滤和自动索引,全文索引不能很好的表达主题
2、概念。返回结果 传统的IR系统的返回结果一般数量不会太大;而网络检索的返回结果动则上万。并发操作 传统IR系统要同时响应的查询数量通常不会太大,但网络检索通常要处理大量的并发操作用户检索知识和技能 网络搜索面对的用户的检索知识和技能参差不齐,而传统信息检索的用户一般都受过相关的培训和教育。,(2)网络搜索主要有两种类型:搜索引擎、分类目录式网络搜索 分类目录式门户网络搜索是建立在分类学基础上的,当它遇到一个网站时,先以人工方式将该网站划分到某个分类下,再记录一些摘要信息对该网站进行概述性的简要介绍。这样的门户依赖的是人工整理的网站分类目录。一方面,用户可以直接沿着目录导航,定位到他所关心的信息
3、;另一方面,用户也可以提交查询词,让系统将他直接引导至与该查询词最匹配的网站。1994年4月,斯坦福大学的两名博士生,David Filo和Gerry Yang共同创办的Yahoo!门户网站就是典型的分类目录式网络搜索。Yahoo!网站成功地使网络信息搜索的概念深入人心。在很多时候,人们也称这类的网站提供的信息搜索功能为搜索引擎,但是从技术上讲,这类门户网站提供的搜索服务与后述搜索引擎是很不同的。,由于对海量的信息进行高质量的人工分类已经不太现实,Yahoo!这种靠人工整理网站目录取得较高精度查询结果的优势逐渐退化。搜索引擎是一种在web上应用的软件系统,它以一定的策略在web上搜集和发现信息
4、,在对信息进行处理和组织后,为用户提供web信息查询服务。独立搜索引擎、元搜索引擎 一些著名的搜索引擎:Google,AllTheWeb,Ask Jeeves,HotBot,Lycos,WiseNut,Vivisimo,百度,北大天网 目前,搜索引擎已经成为了主流的网络搜索方式。本次报告只涉及搜索引擎中的基本原理和主要技术。,(3)搜索引擎发展历史搜索引擎发展端倪 1990年加拿大麦吉尔大学(universityofMcGiu)计算机学院的师生开发了一个软件Archio,公认为是现代搜索引擎的鼻祖。为了便于人们在分散的FTP资源中找到所需的东西,它通过定期搜集并分析FTP系统中存在的文件名信息
5、,提供查找分布在各个FTP主机中文件的服务。1993年Matthew Gray开发了world wide Web Wanderer,它是世界上第一个利用HTML网页之间的链接关系来监测认web发展规模的“机器人”(robot)程序。刚开始它只用来统计互联网上的服务器数量,后来则发展为能够通过它检索网站域名。,第一代搜索引擎 1994年4月,第一个搜索引擎WebCrawler(http:/)在美国诞生。同年5月,Lycos(http:/)也在美国出现。1997年,最早的中文搜索引擎北大天网开始提供服务。早期搜索引擎主要使用基于文档内容信息的匹配和排序算法,较典型的包括布尔模型、向量空间模型、概率
6、检索模型、模糊集合模型、扩展布尔检索模型等。第一代搜索引擎往往以反馈结果的数量来衡量检索结果的好坏,即“求全”第二代搜索引擎 1998年推出的Google搜索引擎,因其采用了独特的PageRank技术,使之很快后来居然成为当前全球最受欢迎的搜索引擎。随着Google的出现,第二代搜索引擎诞生。2000年,最大的商业中文搜索引擎百度上线。第二代搜索引擎依靠机器抓取,建立在超链分析基础之上,提高了查准率,检索思想、方法和目标有了根本性的改变。,第三代搜索引擎 从2003来开始,致力于解决现有搜索引擎服务的问题。一个是以Google为主的“技术驱动型”理念,还有雅虎、搜狐等;一个是Jwmguagua
7、(精武门呱呱)为主的“服务驱动型”理念。技术驱动型对第三代搜索引擎这样描述:第三代搜索,是对整个网页做一种分析和数据挖掘,不仅要找到更多的结果,而且要更加智能化、人性化、更加精确,能够理解用户需要什么结果,然后进行聚合和整理。服务驱动型对第三代搜索引擎的描述是:“第三代全能搜索”概念认为,随着搜索引擎服务在互联网市场的重要性日益突出,以信息搜索为主体的服务模式,已经显露出单一化的趋势。搜索引擎技术的发展需要在进一步优化搜索技术的前提下,寻找更大的服务市场和更大的经济运行空间。搜索引擎出现只有十多年的历史,但在web上已经有了确定不移的地位。据CNNIC统计,2009年搜索引擎服务的使用率排名第
8、三,约为73%。虽然它的基本工作原理己经相当稳定,但在其质量、性能和服务方式等方面的提高空间依然很大,研究成果层出不穷,是每年WWW学术年会的重要论题之一。,提纲,网络搜索概述搜索引擎的工作原理和体系结构搜索引擎的关键技术倒排索引相关排序搜索引擎的发展趋势,搜索引擎的工作原理,现代大规模高质量的搜索引擎一般采用三段式的工作流程,即:网页搜集、预处理和查询服务。(1)网页搜集 面对大量的用户查询,系统不可能每来一个查询就到网上“搜集”一次。大规模搜索引擎服务的基础应该是一批预先搜集好的网页(直接 的或间接的)。网页数据库维护的基本策略:批量搜集:也称“定期搜集”。每过一段时间重新全面搜集网页,替
9、换掉上次的内容。优点:实现简单;缺点:时新性(freshness)差,每次搜集的时间通常会花几周,开销比较大。增量搜集:开始时搜集一批网页,往后只是:1)搜集新出现的网页;2)搜集发生了改变的网页;3)删除不存在的网页。优点:时新性较高,系统开销较小;缺点:搜集过程的系统实现比较复杂,索引的的建立也比较复杂。,具体的搜集过程:“爬取”:将网页集合看做一个有向图,爬取程序从给定的其实URL集合S开始,沿着网页链接,按照某种策略遍历网页集合。让网站让网站拥有者主动向搜索引擎提交它们的网址,系统在一定时间内(2天到数月不等)定向向那些网站派出“蜘蛛”程序,扫描该网站的所有网页并将有关信息存入数据库中
10、。在第一次全面网页搜集后,系统维护相应的URL集合S,往后的搜集直接基于这个集合。每搜到一个网页,如果它发生变化并含有新的URL,则将它们对应的网页也抓回来,并将这些新URL也放到集合S中;如果S中某个URL对应的网页不存在了,则将它从S中删除。(2)网页预处理 网页预处理是指从网页集合形成倒排文件的过程。主要包括四个方面:,关键词提取 HTML文档比较随意,格式不规范,为了支持后面的查询服务,需要从网页源文件中提取出能够代表它的内容的一些特征,即关键词。对于中文来说,就是要根据一个词典,用一个所谓“切词软件”,从网页文字中切出所含的词语来。在那之后,一篇网页主要就由一组词来近似代表了,p=t
11、1,t2,tn。重复或转载网页的消除 与生俱来的数字化和网络化给网页的复制以及转载和修改再发表带来了便利,这种现象对于广大的网民来说是有正面意义的,因为有了更多的信息访问机会。但对于搜索引擎来说,则主要是负面的;它不仅在搜集网页时要消耗机器时间和网络带宽资源,而且如果在查询结果中出现,无意义地消耗了计算机显示屏资源,也会引来用户的抱怨,“这么多重复的,给我一个就够了”。因此,消除内容重复或主题内容重复的网页是预处理阶段的一个重要任务。链接分析 HTML文档中所含的指向其他文档的链接信息是人们近几年来特别关注的对象,认为它们不仅给出了网页之间的关系,而且还对判断网页的内容有很重要的作用。,网页重
12、要程度计算 为结果排序服务的,但既然是在预处理阶段形成的,就是和用户查询无关的。“被链次数较多的网站较为重要”。作为Google创立核心技术的PageRank就是这种思路的成功体现(3)查询服务 如上述,从一个原始网页集合S开始,预处理过程中得到的是对S的一个子集的元素的某种内部表示,这种表示构成了查询服务的直接基础。对每个元素来说,这种表示至少包含如下几个方面:原始网页文档URL和标题编号所含的重要关键词的集合(已经它们在文档中出现的位置信息)其他一些指标(如重要程度,分类代码),查询方式和匹配 查询方式指的是系统允许用户提交查询的形式。用一个词或者短语来直接表达信息需求,希望网页中含有该词
13、或者该短语中的词,是主流的搜索引擎查询模式。对查询式进行分词,去停用词后与索引词进行匹配。包含了查询词的文档被认为是相关的文档。结果排序文档摘要 搜索引擎给出的结果是一个有序的条目列表,每个条目有三个基本的元素:标题,网址和摘要。其中的摘要需要从网页正文中生成。静态方式:即独立于查询,按照某种规则,事先在预处理阶段从网页内容提取出一些文字,例如截取网页正文的开头512个字节(对应256个汉字),或者将每一个段落的第一个句子拼起来,等等。这种方式对查询子系统来说是最轻松的,不需要做另外的处理工作。但这种方式的一个最大的缺点是摘要和查询无关,当用户输入某个查询,他一般是希望摘要中能够突出显示和查询
14、直接对应的文字,希望摘要中出现和他关心的文字相关的句子。动态方式:即在响应查询的时候,根据查询词在文档中的位置,提取出周围的文字来,在显示时将查询词标亮。这是目前大多数搜索引擎采用的方式。,用户接口,检索器,索引DB,索引器,原始DB,控制器,搜集器,WWW,用户行为日志DB,日志分析器,SE的体系结构,TES系统结构,提纲,网络搜索概述搜索引擎的工作原理和体系结构搜索引擎的关键技术倒排索引相关排序搜索引擎的发展趋势,索引,搜索引擎主要针对全文进行索引以及检索,所谓全文检索,就是给定一个字符串或字符串逻辑表达式,对文档库进行相应的检索,查找出与指定表达式相匹配的文档,并将包含这些文字信息的文档
15、作为检索结果返回给用户。目前主流的全文索引模型主要有倒排索引(Inverted index)、署名文件(Signature Files)、位图(Bitmaps)和 Pat 数组(Pat Arrays)等。倒排索引的目前多数搜索引擎的一种全文索引模型。对一个中文搜索引擎,索引创建不仅仅只是一个高效的倒排算法,它还包含许多重要的方面:索引词的选择,中文分词,编码识别和转换、网页净化、强健的页面分析等。,创建索引的过程包括分析网页和建立倒排索引文件。二者是顺序进行,先分析网页,后建立倒排文件,如图所示:,(1)分析网页 分析网页过程包括提取正文信息和把正文信息切分为索引词两个阶段。形成的结果是文档号
16、到索引词的对应关系表即正向索引。每条记录中包括文档编号,索引词编号,索引词在文档中的位置信息,“索引词载体信息”(索引词的字体和大小写等信息,是SE的服务阶段提供更好的结果排序所需要的)。,中文分词原理,中文信息和英文信息有一个明显的差别:英语单词之间用空格分隔;而在中文文本中,词与词之间没有天然的分隔符,中文词汇大多是由两个或两个以上的汉字组成的,并且语句是连续书写的。这就要求在对中文文本进行自动分析前,先将整句切割成小的词汇单元,即中文分词(或中文切词)自动分词的基本方法有:基于字符串匹配的分词方法基于理解的分词方法基于统计的分词方法,基于字符串匹配的分词方法 这种方法又称为机械分词方法,
17、它是按照一定的策略将待分析的汉字字串与一个充分大的词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方长度优先匹配的情况,可以分为最大或最长匹配,和最小或最短匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下:正向最大匹配法(FMM),从左到右每次取最长的词,得到切分结果逆向最大匹配法(RMM),从右到左每次取最长的词,得到切分结果最少切分,也叫最短路径法,采用最短路径法找到词图中起点到终点的最短路径,即每一句切出的词数最小。全切分,该算法给出一个句子所有可能的切分结果 一般说来,逆向匹配的切分
18、精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。,基于理解的分词方法 其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。理解性分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的
19、分词系统还处在试验阶段。,基于统计的分词方法 从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。计算汉字X和Y的互现信息公式为 互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、
20、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。,实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。汉语分词的难点:歧义消除 乒乓球拍卖完了新词识别 伪娘,(2)建立倒排索引 倒排索引(Inverted Index)是从书目索引中受到启发而派生出来的,它也是目前应用最广泛的全文索引模型。倒排索引由一系列“单词-置入列表(Posting List)”对组成。在分析网页阶段形成了正向索引,
21、如下图所示:,倒排索引的结构,构建倒排索引的过程,对于每一个词Term而言,其置入列表(Posting List)的组织结构为:,当面对小数据量时,我们有足够的内存保证该创建过程可以一次完成。但是,搜索引擎面对的是G级的数据,特别是当规模不断扩大时,我们根本不可能提供这么多的内存,我们采用分组索引,然后在归并索引的策略来解决这一问题。,倒排索引的压缩,对于全文检索而言,其中的每一个词(停用词除外)都参与倒排索引的构建。随着信息量的不断增长,需要索引的文档数目将逐渐增加,使得其索引的大小变得异常庞大。通常,倒排索引采用压缩方式进行存储,压缩不仅可以减少存储空间,而且可以减少I/O操作次数,提供检
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网络 检索 技术
链接地址:https://www.31ppt.com/p-2978426.html