第2讲 了解搜索引擎.ppt.ppt
《第2讲 了解搜索引擎.ppt.ppt》由会员分享,可在线阅读,更多相关《第2讲 了解搜索引擎.ppt.ppt(153页珍藏版)》请在三一办公上搜索。
1、,搜索引擎,搜索引擎,1、什么是搜索引擎2、搜索引擎的工作原理3、搜索引擎的发展过程4、搜索引擎的类型及使用技巧,搜索引擎的定义,搜索引擎(Search Engine)是一种用于帮助互联网用户查询信息的搜索工具,它以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。,搜索引擎的发展历史,缘起:1990年,Montreal的McGill University三名学生(Alan Emtage、Peter Deutsch、Bill Wheelan)发明的Archie(Archie FAQ)。Archie是第一个自动索引互联网上匿名FT
2、P网站文件的程序,但它还不是真正的搜索引擎。,发展(一):第一个搜索引擎,世界上第一个Spider程序,是MIT Matthew Gray的万维网爬行者(World wide Web Wanderer),用于追踪互联网发展规模。刚开始它只用来统计互联网上的服务器数量,后来则发展为也能够捕获网址(URL)。,发展(二):Excite,Excite 的历史可以上溯到1993年2月,6个Stanford University(斯坦福大学)学生的想法是分析字词关系,以对互联网上的大量信息作更有效的检索。优点:采用智能概念抽取,能自动编制摘要,且摘要具有一定的可读性。缺点:相关性排序质量一般。,发展(三
3、):Yahoo!,1994年4月,斯坦福大学的两名博士生,美籍华人杨致远和David Filo共同创办了Yahoo!目前采用网络自动索引、人工索引相结合的方式。优点:该系统反应速度快、查准率高,信息处理过程中增加了人类的智慧,收录的网页经过筛选和系统组织,质量较高,条理性比较强,检索结果接近用户的信息需求。缺点:采集信息的速度远远比不上网络资源的增长速度,所建立的数据库的规模都比较小,因此检索到的文献数量有限,对于专业性较强的查询很难提供满意的结果。,网站:,发展(四):Altavista,1995年12月,DEC的正式发布AltaVista。AltaVista是第一个支持自然语言搜索的搜索引
4、擎,第一个实现高级搜索语法的搜索引擎(如AND、OR、NOT等)。AltaVista用户界面友好,检索速度快,信息量大,支持28个国家的信息检索,是当时功能最全面、查全率最高的搜索引擎之一。,网站:,Lycos:http:/,发展(五):Google,1995年,斯坦福大学的两个博士生Larry Page 和 Sergey Brin 共同开发了全新的在线搜索引擎Google,并于1997年9月15日注册了的域名。1998年9月27日认作自己的生日。Google 被公认为目前全球规模最大的搜索引擎,它提供了简单易用的免费服务,用户可以在瞬间得到相关搜索结果。,发展(六):中文搜索引擎,悠游,19
5、96年在香港成立。一个极具高度智慧的中文搜索器,自动转换繁、简体字。Openfind 创立于1998年1月,由台湾中正大学吴升教授创建。Openfind起先只做中文搜索引擎,鼎盛时期同时为三大著名门户新浪、奇摩、雅虎提供中文搜索引擎。,发展(七):百度,2000年1月由李彦宏、徐勇两人创立于北京中关村。2005年8月6日,百度在纳斯达克上市。成为全球最大的中文搜索引擎。,搜索引擎的工作原理,搜索引擎的组成搜索引擎基本由三部分组成,第一部分是蜘蛛软件(Spider),即自动的收集程序,它的作用是负责收集网页的内容;第二部分是索引器(Indexer),其作用是将收集回来的内容进行分析,然后做一个索
6、引;第三部分是搜索器(Searcher),即响应用户的检索请求。当用户输入关键字后,搜索器用这个关键字与建立的索引器匹配,匹配后做相关性排序,再将排序结果送给用户。,搜索引擎的组成,其功能是在因特网漫游和搜集信息,搜索器,检索器,索引器,输入用户查询内容、显示查询结果并提供用户相关性反馈机制,用户接口,其功能是理解搜索器所搜索的信息,从中抽出索引项用于表示文档以及生成文档库的索引表,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制,(2)工作原理,简单地说主要包括以下几个步骤:网页信息搜索索引库的建立用户检索式的处理检索结果输出,搜索引擎的类型,目录式搜索引擎
7、全文搜索引擎元搜索引擎,渐行渐远,如日中天,方兴未艾,目录式搜索引擎,目录式搜索引擎:具有搜索功能,严格意义上不是真正的搜索引擎,是靠分类目录检索,用户通过逐级层层点击浏览类目,导找自己所需的信息。因此,用户必须清楚信息所属的类别,才能找到相关的网站。如:Yahoo!、Open Directory、Infoseek、Excite等,分类目录式搜索引擎,按目录分类的网站链接列表,提供相关类目的网站信息。代表:SOHU,分类目录式搜索引擎,中国政府各职能部门的网站,中国政府各职能部门的网站,中国政府各职能部门的网站,中国政府各职能部门的网站,中国政府各职能部门的网站,Open Directory
8、http:/www.dmoz.org/,全文搜索引擎,是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。,常见的全文搜索引擎,国内:百度、天网、悠游、OpenFind、搜狗、爱问、中搜等国外:AltaVista、FAST、Lycos、Northern Light、Google等,元搜索引擎,它是通过一个统一用户界面帮助用户在多个搜索引擎中选择和利用合适的(甚至是同时利用若干个)搜索引擎来实现检索操作,是对分布于网络的多种检索工具的全局控制机制。,常见的元搜
9、索引擎,中文元搜索引擎:万纬搜索、北斗搜索外文元搜索引擎:Ask、Chubba、Cyber411、Infind、OneSeek、Savvy Search、SurfWax,搜索引擎的优点和缺点,优点及缺点,百度和GOOGLE:,1、百度(http:/):,百度的起名,来自于“众里寻她千百度”的灵感。百度公司于1999年底成立于美国硅谷,是目前全球最优秀的中文信息检索与传递技术供应商。中国所有提供搜索引擎的门户网站中,超过80%以上都由百度提供搜索引擎技术支持,现有客户包括新浪、Chinaren、腾讯、263、21cn等。百度搜索引擎拥有目前世界上最大的中文搜索引擎,总量超过3.5亿页以上,并且还
10、在保持快速的增长。百度搜索引擎具有高准确性、高查全率、更新快以及服务稳定的特点.,(1)主要搜索功能:百度主要提供网页搜索、新闻搜索、mp3搜索、地图搜索、图片搜索、地区搜索等搜索功能,百度可提供硬盘搜索功能,此外百度还推出了针对手机用户的Pda搜索功能和Wap搜索功能,后者可进行中文动态网页搜索,为世界首创。,(2)主要检索入口,快速搜索 简单搜索 您只需要在搜索框内输入需要查询的内容,敲回车键,或者鼠标点击搜索框右侧的百度搜索按钮,就可以得到最符合查询需求的网页内容。多词搜索 输入多个词语搜索(不同字词之间用一个空格隔开),可以获得更精确的搜索结果。高级搜索,(3)检索结果 检索结果标示丰
11、富的网页属性(如标题、网址、时间、大小、编码、摘要等),并突出用户的查询串,便于用户判断是否阅读原文。百度搜索支持二次检索(又称渐进检索或逼进检索)。可在上次检索结果中继续检索,逐步缩小查找范围,直至达到最小、最准确的结果集。,(4)主要搜索语法,逻辑与:空格或+,如“计算机 防火墙”。逻辑或:|,如“计算机|电脑”。逻辑非:-,例如,要搜寻“武侠小说”,但不含“古龙”的资料,则可输入“武侠小说-古龙”。,(5)重要搜索语法 A、双引号精确匹配:输入的查询词很长,百度在经过分析后,给出的搜索结果中的查询词,可能是拆分的。用户可以给查询词加上双引号而让百度不拆分查询词。,例如:想搜索含有“河北省
12、清苑县冉庄地道战”字样的网页,就要将上述11字加以双引号,这样搜索出来的结果就是精确含有“河北省清苑县冉庄地道战”这11个连续字串的网页。,如果检索词加双引号时检索的结果是137篇,显示如下图:,如果检索词不加双引号时检索的结果是3520篇,显示如下图:,B、intitle关键词在网页标题中:网页标题通常是对网页内容提纲挈领式的归纳。把查询内容范围限定在网页标题中,有时能获得良好的效果。使用的方式是把查询内容中特别关键的部分,用“intitle:”限定起来。注意:intitle:和后面的关键词之间不要有空格。,例如:找杨振宁的事迹。检索式为:事迹 intitle:杨振宁。,用“事迹 intit
13、le:杨振宁”检索的结果是502篇,结果如下:,检索词用“杨振宁事迹”时检索的结果是31100篇,结果如下:,C、filetype对搜索对象做格式限制:使用方法是在“Filetype:”后跟文件格式。“Filetype:”可以跟以下文件格式:DOC、XLS、PPT、PDF、TXT、RTF、ALL,其中,ALL表示搜索所有这些文件类型。,例如:想搜索含有关键词“霍金”、“黑洞”的pdf文档。检索式为:霍金 黑洞 filetype:pdf。,D、书名号()精确匹配:书名号是百度独有的一个特殊查询语法。在其他搜索引擎中,书名号会被忽略,而在百度,中文书名号是可被查询的。加上书名号的查询词,有两层特殊
14、功能,一是书名号会出现在搜索结果中;二是被书名号括起来的内容,不会被拆分。书名号在某些情况下特别有效果,例如查名字很通俗和常用的那些电影或者小说。比如要查电影“手机”,如果不加书名号,很多情况下出来的是通讯工具手机,而加上书名号后,手机结果就都是关于电影或书方面的了。,E、site-把搜索范围限定在特定站点中,有时候,您如果知道某个站点中有自己需要找的东西,就可以把搜索范围限定在这个站点中,提高查询效率。使用的方式,是在查询内容的后面,加上“site:站点域名”。例如,新闻 site:注意,“site:”后面跟的站点域名,不要带“http:/”;另外,site:和站点名之间,不要带空格。,F、
15、inurl-把搜索范围限定在url链接中,网页url中的某些信息,常常有某种有价值的含义。于是,您如果对搜索结果的url做某种限定,就可以获得良好的效果。实现的方式,是用“inurl:”,后跟需要在url中出现的关键词。例如,找关于photoshop的使用技巧,可以这样查询:photoshop inurl:jiqiao上面这个查询串中的“photoshop”,是可以出现在网页的任何位置,而“jiqiao”则必须出现在网页url中。注意:inurl:语法和后面所跟的关键词,不要有空格。,注意事项,Site、filetype、inurl、intitle后面的“:”必须是英文符号;“:”后面的关键词
16、必须紧挨着冒号,不许加空格;各语法功能可以复合使用。,百度不支持“通配符”,要求所输入的关键词完整、准确,一字不差,才能得到最准确的资料。,(5)特色功能:百度快照 英汉互译词典 高级搜索语法 货币换算 相关搜索 计算器和度量衡转换 天气查询 搜索框提示 拼音提示 专业文档搜索 高级搜索和个性设置 错别字提示 股票、列车时刻表和飞机航班查询,A、百度快照:每个被收录的网页,在百度上都存有一个纯文本的备份,称为“百度快照”。百度速度较快,如果某个搜索结果无法打开,或者打开速度特别慢,用户可以通过“百度快照”快速浏览页面内容。不过,百度只保留文本内容。图片、音乐等非文本信息,快照页面还是直接从原网
17、页调用,所以如果无法连接原网页,那么快照上的图片等非文本内容会无法显示。,B、相关搜索:搜索结果不佳,有时候是因为选择的检索词不是很妥当。百度使用相关检索词智能推荐技术,即在用户第一次检索后,会在搜索结果页的下方提示相关的检索词,帮助用户查找更相关的结果,统计表明可以促进检索量提升10-20%。,例如:输入检索词“杨振宁事迹”,显示的相关搜索如下图:,C、拼音提示:如果只知道某个词的发音,却不知道怎么写,或者嫌某个词拼写输入太麻烦,可通过百度拼音提示来解决问题。只要用户输入检索词的汉语拼音,百度就能把最符合要求的对应汉字提示出来。它事实上是一个无比强大的拼音输入法。拼音提示显示在搜索结果上方。
18、,例:输入“zhurongji”,检索结果会提示:您要找的是不是:朱鎔基。,D、英汉互译词典:随便输入一个英语单词,或者输入一个汉字词语,留意一下搜索框上方多出来的词典提示。如,搜索“apple”,点击结果页上的“词典”链接,就可以得到高质量的翻译结果。百度的线上词典不但能翻译普通的英语单词、词组、汉字词语,甚至还能翻译常见的成语!可以通过“百度词典搜索”界面(http:/,E、计算器和度量衡转换:Windows 系统自带的计算器功能过于简陋,尤其是无法处理一个复杂计算式,很不方便。而百度网页搜索内嵌的计算器功能,则能快速高效的解决用户的计算需求。用户只需简单的在搜索框内输入计算式按回车即可。
19、如果用户要搜的是含有数学计算式的网页,而不是做数学计算,点击搜索结果上的表达式链接,就可以达到目的。在百度的搜索框中,用户也可以做度量衡转换。格式:换算数量换算前单位?换算后单位。,例如:输入检索式“-5摄氏度=?华氏度”,按回车后可得到结果:“-5摄氏度=23华氏度”。,F、天气查询:百度支持全国多达400多个城市和近百个国外著名城市的天气查询。在百度搜索框中输入要查询的城市名称加上天气这个词,就能获得该城市当天的天气情况。,例如:搜索“北京天气”,就可以在搜索结果上面看到北京今天的天气情况。,G、高级搜索、地区搜索和个性设置:如果用户对百度各种查询语法不熟悉,可以使用百度集成的高级搜索界面
20、,可以方便的做各种搜索查询。百度还支持对某个地区的网页进行搜索。首先进入高级搜索,然后在页面底下点击链接进入地区搜索,选中要查询的地区,就可以在该地区搜索了。用户还可以根据自己的习惯,改变百度默认的搜索设定,如每页搜索结果数量,搜索结果的页面打开方式等。先进入高级搜索,然后点击下方的个人设置,就可以进行设定了。,2、Google(http:/)Google搜索引擎诞生于斯坦福大学的一个学生宿舍里,然后迅速传播到全球的信息搜索者。Google 目前被公认为万维网上最大的搜索引擎,它提供了简单易用的免费服务,使用户能够访问一个包含超过 80 亿个网址的索引。“Google”来自于数学名词“Goog
21、ol”,Googol表示一个 1 后面跟着 100 个零。这一术语体现了公司整合网上海量信息的远大目标。,Google 技术,Google 使用一组独特的高级硬件和软件,核心软件称为 PageRank(TM)。作为组织管理工具,网页级别利用了互联网独特的民主特性及其巨大的链接结构。从网页 A 链接到网页 B 时,Google 就认为“网页 A 投了网页 B 一票”。Google 根据网页的得票数评定其重要性。除了考虑网页得票数(即链接)的纯数量之外,Google 还要分析投票的网页,“重要”的网页所投出的票就会有更高的权重。与大多数其它搜索引擎的区别在于:Google 只显示相关的网页,其正文
22、或指向它的链接包含您所输入的所有关键词,而无须再受其它无关结果的烦扰。,(1)主要搜索功能:Google提供网页搜索、新闻搜索、图片搜索、本地搜索、大学搜索、学术搜索、实验室搜索等搜索功能。,(2)基本搜索方法:在搜索框内输入关键词,选择需要搜索的网页类型,然后按回车或者点击【Google搜索】按钮即可得到检索结果。如果想得到更加准确的结果可以输入两个或两个以上关键词。,(3)检索结果:检索结果页面给出有关查询结果及搜索时间的统计数字,给出相关条目的详细信息(网页标题、网页摘要、文本大小等),搜索关键词以粗体显示,用户可以通过浏览网页摘要判断是否阅读原文。如果想进一步检索,用户可以在检索结果页
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第2讲 了解搜索引擎.ppt 了解 搜索引擎 ppt
链接地址:https://www.31ppt.com/p-2312782.html