电子商务-A-第08讲.ppt
《电子商务-A-第08讲.ppt》由会员分享,可在线阅读,更多相关《电子商务-A-第08讲.ppt(73页珍藏版)》请在三一办公上搜索。
1、电 子 商 务,张文新 副教授,电话:Email:,课 程 安 排,第8讲,电子商务搜索引擎技术,内容提要,8.1 搜索引擎原理8.2 搜索引擎关键技术,8.1 搜索引擎原理,搜索引擎分类搜索引擎按其工作方式主要可分为三种:分别是全文搜索引擎(Full Text Search Engine):目录索引类搜索引擎(Search Index/Directory)元搜索引擎(Meta Search Engine)。,8.1 搜索引擎原理,全文搜索引擎(如Google和Baidu)从互联网上提取各个网站的信息(以网页文字为主)建立的数据库;对数据库存储的信息进行分类建立索引库;从索引库中检索与用户查询
2、条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。,8.1 搜索引擎原理,目录索引目录索引靠分类目录找到需要的信息。目录索引中最具代表性是Yahoo雅虎,国内的搜狐、新浪搜索也都属于这一类。,8.1 搜索引擎原理,元搜索引擎(META Search Engine)元搜索引擎在接受用户查询请求时,同时在其
3、他多个引擎上进行搜索,并将结果返回给用户;在搜索结果排列方面,有的直接按来源引擎排列搜索结果,有的则按自定的规则将结果重新排列组合,如Vivisimo。,9/41,8.1 搜索引擎的原理,全文搜索引擎的组成和结构,www,索 引 器,检 索 器,用 户 接 口,robot,robot,文档库,索引库,图:搜索引擎的组成和结构,8.1 搜索引擎原理,搜索引擎的性能指标召回率:是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统(搜索引擎)的查全率;精度:是检索出的相关文档数与检索出的文档总数的比率,衡量的是检索系统(搜索引擎)的查准率。,8.1 搜索引擎原理,搜索引擎的性能指标
4、对于一个检索系统来讲,召回率和精度不可能两全其美:召回率高时,精度低,精度高时,召回率低。目前的搜索引擎系统都非常关心精度。影响一个搜索引擎系统的性能有很多因素,最主要的是信息检索模型,包括文档和查询的表示方法、评价文档和用户查询相关性的匹配策略、查询结果的排序方法和用户进行相关度反馈的机制。,8.1 搜索引擎原理,图:全文搜索引擎系统流程,8.1 搜索引擎原理,Caching,Searcher,Indexer,www,Page&SiteStatistic,Inverted Index,采集,预处理,索引,检索,Query,crawler,Web Page Parse,User Interfa
5、ce,PageRank,Repository,Anchors&Links,快照,图:一个简单的搜索引擎体系结构,*,14/22,Caching,Searcher,Indexer,Inverted Index,预处理,索引,检索,Query,Web Page Parse,User Interface,PageRank,Web采集,功能:通过超链抓取Web网页,并定期更新。需要解决的问题:获取尽可能多的页面如何检测高质量页面?如何反spam?如何高效准确地发现与剔除重复页面?如何预测各类网页的刷新率?如何获取Invisible web?,www,Page&SiteStatistic,采集,craw
6、ler,Repository,Anchors&Links,8.1 搜索引擎原理,全文搜索引擎的原理(1)从互联网上抓取网页:利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。,8.1 搜索引擎原理,全文搜索引擎的原理(1)从互联网上抓取网页:目前有两种搜集信息的策略:从一个起始URL集合开始,顺着这些URL中的超链(Hyperlink),以宽度优先、深度优先或启发式方式循环地在互联网中发现信息。这些起始URL可以是任意的URL,但常常是一些非常流行、包含很多链接的站点(如Yahoo!)。将We
7、b空间按照域名、IP地址或国家域名划分,每个搜索器负责一个子空间的穷尽搜索。,8.1 搜索引擎原理,全文搜索引擎的原理(1)从互联网上抓取网页:搜索器搜集的信息类型多种多样包括HTML、XML、Newsgroup文章、FTP文件、字处理文档、多媒体信息。搜索器的实现常常用分布式、并行计算技术,以提高信息发现和更新的速度。商业搜索引擎的信息发现可以达到每天几百万网页。,*,20/22,Caching,Searcher,Indexer,www,Page&SiteStatistic,Inverted Index,采集,索引,检索,Query,crawler,User Interface,PageRa
8、nk,Repository,页面分析和信息抽取,功能:分析页面,提取用于索引的信息:Title,Keywords,URL,Body,字体等建立Link map发现新的超链供采集器使用需要解决的问题:BBS,社区,Blog,产品,新闻等等,页面是设计给人看的,结构特征各异,如何准确抽取有用信息?,预处理,Web Page Parse,Anchors&Links,8.1 搜索引擎原理,全文搜索引擎的原理(2)建立索引数据库:由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定
9、的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。,*,22/22,Caching,Searcher,www,Page&SiteStatistic,采集,预处理,检索,Query,crawler,Web Page Parse,User Interface,PageRank,Repository,全文索引,功能:建立索引以加速查询,目前使用最广最高效的是倒排索引,基本形式:需要解决的问题:性能:如何在计算资源有限的情况下快速构建索引?文档更新:倒排索引天生不适合文档的更新,如何支持文档的实时更新?在线索引:产
10、品,生活信息,新闻等更新非常快,如何做到实时索引的同时检索?分布式:document partition,term partition或者其他模式?大量计算资源的管理,容错(Google File System,MapReduce,BigFile),Indexer,Inverted Index,索引,Anchors&Links,8.1 搜索引擎原理,全文搜索引擎的原理:(2)建立索引数据库:索引器索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。索引项有客观索引项和内容索引项两种:客观项与文档的语意内容无关,如作者名、URL、更新时间、编码、长度、链接
11、流行度(Link Popularity)等等;内容索引项是用来反映文档内容的,如关键词及其权重、短语、单字等等。内容索引项可以分为单索引项和多索引项(或称短语索引项)两种。单索引项对于英文来讲是英语单词,比较容易提取,因为单词之间有天然的分隔符(空格);对于中文等连续书写的语言,必须进行词语的切分。,8.1 搜索引擎原理,全文搜索引擎的原理:(2)建立索引数据库:在搜索引擎中,一般要给单索引项赋与一个权值,以表示该索引项对文档的区分度,同时用来计算查询结果的相关度。使用的方法一般有统计法、信息论法和概率法。短语索引项的提取方法有统计法、概率法和语言学法。索引表一般使用某种形式的倒排表(Inve
12、rsion List),即由索引项查找相应的文档。索引表也可能要记录索引项在文档中出现的位置,以便检索计算索引项之间的相邻或接近关系(proximity)。,8.1 搜索引擎原理,全文搜索引擎的原理:(2)建立索引数据库:索引器可以使用集中式索引算法或分布式索引算法。当数据量很大时,必须实现即时索引(Instant Indexing),否则不能够跟上信息量急剧增加的速度。索引算法对索引器的性能(如大规模峰值查询时的响应速度)有很大的影响。,*,26/22,Indexer,www,Page&SiteStatistic,采集,预处理,索引,Query,crawler,Web Page Parse,
13、User Interface,检索,Caching,Searcher,Inverted Index,检索,PageRank,Repository,Anchors&Links,快照,功能:利用建立的倒排索引,结合链接结构等信息处理查询,返回Top-k结果需要解决的问题:效果:找到用户真正想要的东西?更好的IR Model,PageRank算法?性能:如何快速处理Top-k查询?New Index strategy,index compression,index pruning?处理link图非常耗时,更高效的算法?Link-spam是否有比链接分析更好的,spam免疫的方法?,8.1 搜索引擎原
14、理,全文搜索引擎的原理:(3)检索器检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型四种。,8.1 搜索引擎原理,全文搜索引擎的原理:(3)检索器在索引数据库中搜索排序:当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已计算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。
15、,8.1 搜索引擎原理,全文搜索引擎的原理:(4)用户接口用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。主要的目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时的信息。用户接口的设计和实现使用人机交互的理论和方法,以充分适应人类的思维习惯。,8.1 搜索引擎原理,全文搜索引擎的原理:(4)用户接口用户输入接口可以分为简单接口和复杂接口两种。简单接口只提供用户输入查询串的文本框;复杂接口可以让用户对查询进行限制,如逻辑运算(与、或、非)、相近关系(相邻、NEAR)、域名范围(如.edu、.com)、出现位置(如标题、内容)、信息时间、长度等等。目前一些公
16、司和机构正在考虑制定查询选项的标准。,8.1 搜索引擎原理,全文搜索引擎的原理:(4)用户接口对搜索结果进行处理排序:所有相关网页针对该关键词的相关信息在索引库中都有记录,只需综合相关信息和网页级别形成相关度数值,然后进行排序,相关度越高,排名越靠前。最后由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。,8.2 搜索引擎关键技术,(1)检索技术的智能化:机灵的网络蜘蛛 语义检索及自然语言理解技术 检索对象形式的多样性(2)检索结果处理的智能化 保存和利用用户的使用记录,分析检索结果的相关度:检索结果的转换过滤 检索结果的知识提取(3)检索服务的智能化,8.2 搜索引擎
17、关键技术,(1)检索技术的智能化:机灵的网络蜘蛛智能搜索引擎的设计网络蜘蛛能遍历整个因持网,自动完成在线信息的索引,还能通过启发式学习采取最有效的搜索策略,选择最佳时机获取从Internet上自动收集、整理过的信息。同时,它能够对网页内容的相关性及该网页所包含的链接质量等做出判断,质量较差或内容不大相关的网页将不被选取,从而保证信息来源的质量,提高检索效果。,8.2 搜索引擎关键技术,语义检索及自然语言理解技术语义检索是一种建立在文献概念相关关系基础上的检索。通过抽取能够描述文献内容的概念(如用文中的关键词或与之相应的主题词)建立一种语义索引,而用户在系统的辅助下选用合适的词语表示自己的信息需
18、求,然后在两者之间执行概念匹配,匹配在语义上相同、相近、相包含的词语,从而实现信息的深度检索,8.2 搜索引擎关键技术,语义检索及自然语言理解技术借助自然语言理解技术,智能搜索引擎能够实现基于知识(或概念)层面的检索,并且对知识有一定的理解与处理能力,能够实现分词技术、同义词技术、概念搜索、短语识别以及机器翻译技术等。因而智能搜索引擎具有信息服务的智能化、人性化特征,允许用户采用自然语言进行信息检索,并能为用户提供更方便、更确切的搜索服务。,8.2 搜索引擎关键技术,检索对象形式的多样性智能搜索引擎具有跨平台工作和处理多种混合文档结构的能力,能处理HTML(HyperText Markup L
19、anguage,超文本标志语言)、SGML(Standard for General Markup Language,通用标志语言标准)、XML(eXtended Marked Language,扩展标志语言)文档以及其他类型的文档,如Word、WPS等。另外,智能搜索引擎还支持多语言检索,允许用户用中文输入查询英文或其他语言的信息,8.2 搜索引擎关键技术,(2)检索结果处理的智能化 保存和利用用户的使用记录,分析检索结果的相关度:例如访问量排序和基于超链接的排序。搜索引擎记录其所搜索到的Web页面的被点击次数(即访问量),从而判断该Web页面被访问的频率。这是一种由公众集体确认网站重要性的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 电子商务 08
链接地址:https://www.31ppt.com/p-6592682.html