网络信息检索与利用系列讲座之四.ppt
《网络信息检索与利用系列讲座之四.ppt》由会员分享,可在线阅读,更多相关《网络信息检索与利用系列讲座之四.ppt(120页珍藏版)》请在三一办公上搜索。
1、网络信息检索与利用系列讲座之四,1.google()2.百度()3.yahoo()4.特种搜索引擎,Google 等几种常用的搜索引擎介绍 沈丽萍 文献检索课教研室 2005年11月16日,1Google(),Google是由两个斯坦福大学博士生Larry Page与Sergey Brin于1998年9月在美国硅谷创建的高科技公司,他们所设计的Google搜索引擎,旨在提供全球最优秀的搜索引擎服务,通过其强大、迅速而方便的搜索引擎,在网上为用户提供准确、详实、符合他们需要的信息。Google自2000年正式开始商业运营以来,目前在全球范围内已拥有了一个正在快速增长的忠实用户群,其中一半以上是国
2、际用户。Google公司不但拥有自身的独立搜索引擎网站,现今的日访问量高达7000万次,还将其搜索引擎技术售卖给世界上许多公司,目前就有包括雅虎、美国在线、网景和中国的网易等知名网站在内的全球150多家公司采用了Google搜索引擎技术。Google非常注重技术创新,98年至今,已经获得30多项业界大奖,如美国时代杂志评选的“1999年度十大网络技术”,个人电脑杂志授予的“最佳技术奖”,The Net授予的“最佳搜索引擎奖”等等。Google 是由英文单词“googol”变化而来。“googol”是美国数学家 Edward Kasner 的侄子 Milton Sirotta 创造的一个词,表示
3、 1 后边带有 100 个零的数字。Google 使用这个词代表公司想征服网上无穷无尽资料的雄心。,李开复Google和中国-追随我心的选择 2005.7,令我震撼的是Google的“新一代技术”和那种对创新的热情 令我震撼的是Google对诚信的执著 令我震撼的是Google对大众利益的追求 令我震撼的是Google的“激情魔力”令我震撼的是Google的“自由+透明”青年+自由+透明+新创新模式+大众利益+诚信=Google的奇迹,Google支持中文搜索,其中文搜索引擎是收集亚洲网站最多的搜索引擎之一,并成为它藉此拓展全球信息市场的重要基础。虽然Google非中国本土公司,但在国内,使用
4、它的独立搜索引擎的人数正迅猛增长,其搜索引擎技术还受到了中文雅虎、网易等知名门户网站的亲睐,采用了其中文互联网服务。下图是Google(http:/)的主页,它非常简洁,Google标示下面排列了四大功能模块:网站、图像、新闻群组和网页目录服务。主页默认是网站搜索。功能模块以下为检索输入框,可限定所搜索范围为:搜索所有网站、搜索所有中文网页或搜索中文(简体)网页,并提供高级搜索、使用偏好、语言工具三种设定功能。,(1)Google的搜索功能,忽略词 Google 会忽略最常用的词和字符,这些词和字符称为忽略词。Google 自动忽略“http”,“.com”和“的”等字符以及数字和单字,这类字
5、词不仅无助于缩小查询范围,而且会大大降低搜索速度。使用英文双引号可将这些忽略词强加于搜索项,例如:输入“柳堡的故事”时,加上英文双引号会使“的”强加于搜索项中,Google提供如下一些搜索功能查询简洁方便仅需输入查询内容并敲回车键(Enter),或单击“Google 搜索”按钮即可得到相关资料。,自动使用“and”进行查询 Google 只会返回那些符合您的全部查询条件的网页。不需要在关键词之间加上“and”或“+”。如果您想缩小搜索范围,只需输入更多的关键词,只要在关键词中间留空格就行。,简繁转换 Google运用智能型汉字简繁自动转换系统,为您找到更多相关信息。这个系统不是简单的字符变换,
6、而是简体和繁体文本之间的“翻译”转换。例如简体的“计算机”会对应于繁体的“电脑”。当您搜索所有中文网页时,Google会对搜索项进行简繁转换后,同时检索简体和繁体网页。并将搜索结果的标题和摘要转换成和搜索项的同一文本,便您阅读。不支持“通配”检索 为提供最准确的资料,Google 不使用“词干法”,也不支持“通配符”(*)搜索。也就是说,Google 只搜索与输入的关键词完全一样的字词。例如:搜索“googl”或“googl*”,不会得到类似“googler”或“googlin”的结果。不区分英文字母大小写 Google 搜索不区分英文字母大小写。所有的字母均当做小写处理。例如:搜索“goog
7、le”、“GOOGLE”或“GoOgLe”,得到的结果都一样。,短语搜索 在 Google 中,可以通过添加英文双引号来搜索短语。双引号中的词语(比如“like this”和“伊拉克战争爆发”)在查询到的文档中将作为一个整体出现。这一方法在查找名言警句或专有名词时显得格外有用。一些字符可以作为短语连接符。Google 将“-”、“”、“.”、“=”和“.”等标点符号识别为短语连接符。,指定网域有一些词后面加上冒号对 Google 有特殊的含义。其中有一个词是“site:”。要在某个特定的域或站点中进行搜索,可以在 Google 搜索框中输入“site:”。例如,要在 Google 站点上查找新
8、闻,可以输入:新闻,高级搜索 在范围较广的查询中添加词语就可以缩小搜索范围。不过对于某些特定要求的搜索,还可以使用Google的高级搜索功能。点击Google主页中的“高级搜索”链接,即可进入“高级搜索”页面。利用Google的“高级搜索”,可以做到:将搜索范围限制在某个特定的网站中 排除某个特定网站的网页 将搜索限制于某种指定的语言 查找链接到某个指定网页的所有网页 查找与指定网页相关的网页,按类别搜索 利用 Google 目录可以根据主题来缩小搜索范围。例如,在 Google 目录的 Science Astronomy 类别中搜索“Saturn”,可以找到只与 Saturn(土星)有关的信
9、息。而不会找到“Saturn”牌汽车、“Saturn”游戏系统,或“Saturn”的其它含义。又如:要搜索某一期刊,不直接输入期刊关键词,而先搜索“期刊”在某个类别的网页中搜索可以快速找到所需的网页,google是查找期刊文献的最好的网络搜索引擎。,(2)Google 的特殊功能,查找 PDF 文件 除一般网页外,Google 现在还可以查找 Adobe 的可移植文档格式(PDF)文件。虽然 PDF 文件不象 HTML 文件那样多,但这些文件通常会包含一些别处没有的重要资料。如果某个搜索结果是 PDF 文件而不是网页,只需在搜索关键词后加上 filetype:pdf 就可以,它的标题前面会出现
10、以蓝色字体标明的 PDF。这样,用户就知道需要启动 Acrobat Reader 程序才能浏览该文件。单击 PDF 右侧的标题链接就可以访问这个 PDF 文档。(如果您的计算机上没有 Adobe Acrobat,Google 将带您进入一个可以免费下载该程序的网页。)对于 PDF 文件,常见的“网页快照”将被“文本文件”所替代。文本文件是 PDF 文档中的纯文本内容,不带任何格式。如果您只想查找一般网页,而不要 PDF 文件,只需在搜索关键词后加上-filetype:pdf 就可以了。,网页快照 Google 在访问网站时,会将看过的网页复制一份网页快照,以备在找不到原来的网页时使用。单击“网
11、页快照”时,您将看到 Google 将该网页编入索引时的页面。Google 依据这些快照来分析网页是否符合您的需求。在显示网页快照时,其顶部有一个标题,用来提醒您这不是实际的网页。符合搜索条件的词语在网页快照上突出显示,便于您快速查找所需的相关资料。尚未编入索引的网站没有“网页快照”,另外,如果网站的所有者要求 Google 删除其快照,这些网站也没有“网页快照”。,类似网页 单击“类似网页”时,Google 侦察兵便开始寻找与这一网页相关的网页。Google 侦察兵可以“一兵多用”。如果您对某一网站的内容很感兴趣,但又嫌资料不够,Google 侦察兵会帮您找到其他有类似资料的网站;如果您在寻
12、找产品信息,Google 侦察兵会为您提供相关信息,供您比较,使您尽可货比三家;如果您在某一领域做学问,Google 侦察兵会成为您的助手,帮您快速找到大量资料。Google 侦察兵已为成千上万的网页找到了类似网页,但网页越有个性,能找到的类似网页就越少。例如,您独树一帜的个人主页就很难有类似网页。此外,如果公司有多个网址(如 和),Google 侦察兵为各个网址找到的类似网页可能会有所不同。但这种情况实属罕见,Google 侦察兵将是您出色的助手。,图像搜索 Google 的“图像搜索”是网络上现今最好用的图像搜索工具,收录有超过3.3亿张图像。要进行图像搜索,先进入高级搜索页或 http:
13、/,在图像搜索框中输入要查找的资料,然后单击“搜索”按钮。在查询结果页上单击缩略图即可看到原始大小的图像,同时还可看到该图像所在的网页。按链接搜索 有一些词后面加上冒号对 Google 具有特殊的含义。其中的一个词是“link:”。查询 link:显示所有指向该网址的网页。例如,“”将找出所有指向 Google 主页的网页。不能将 link:搜索与普通关键词搜索结合使用。手气不错 按下“手气不错”按钮将自动进入 Google 查询到的第一个网页。您将完全看不到其它的搜索结果。使用“手气不错”进行搜索表示用于搜索网页的时间较少而用于检查网页的时间较多。例如,要查找 Stanford 大学的主页,
14、只需在搜索字段中输入“Stanford”,然后单击“手气不错”按钮。Google 将直接带您进入 Stanford 大学的官方主页。,点我!,(3)搜索结果显示,Google搜索结果的排序由多个因素共同决定,并特别取决于网页级别。Google利用Internet本身的链接结构查找网站,网页被链接的多寡、其他网站的评价都是网页级别的影响因素。如下图是Google搜索结果页面。,检索框,搜索按钮,网页标题,标题下文本,统计行,缩进显示的查询结果,网址,文本大小,项目说明:A.检索框 在这里,用户仅需输入查询内容并敲一下回车键enter,即可得到相关资料。用户还可以用双引号进行专用语搜索。B.Goo
15、gle 搜索按钮 用户只要点击此按钮,或敲 enter(回车键),Google便开始查询。C.手气不错 手气不错 按钮自动将用户带到Google推荐的网页。用户无须查看其他结果,省时方便。例如,要查找北京大学,只需在检索框A中输入:北京大学,再点击手气不错按钮,Google 就直接带用户到-北京大学的正式主页。D.结果数量设定菜单 用户可以自定义每页显示的结果数量,用户的选择为10,30,或 100。Google默认值为10。E.网页标题 第一行是已查询到网页的标题,有时会显示为网址。这表明Google还未将此页编入索引,或此页作者还没给它定标题。F.Google 和 RealNames 在查
16、询结果中有时会出现RN(RealNames)标志,它反映了RealNames公司与Google的合作关系。Realnames使Google搜索更加准确。RealNames是一家网络关键词管理公司。网络关键词是指可以连接到网站的商标、产品、服务或者公司名称,其作用就是网络中的注册商标。例如:Jeep Grand CherokeeRN 连到Jeep公司正式网站中有关 Grand Cherokee汽车的网页。只有当关键词与Google的推荐网站匹配时,关键词和RN标记才会出现在标题末尾,标题下文本 通常是网页摘要(不一定是网页的头一段)。其中用户的原始查询字词,都用粗体字高亮显示,以便阅读。H.统计
17、行 这里是有关查询结果及搜索时间的统计数字。I.缩进显示的查询结果 当 Google 在同一网站找到大量的资料时,首先显示最合适的结果,其他的就以缩进的形式排在下方。J.网址 这是该网页的网址。K.网页快照 单击“网页快照”可见Google保存的该网页的快照内容。Google为用户贮存大量的应急网页。对于随时更新的网站(如:新闻网站)来说,快照内容不可能跟得上其更新速度。然而对于其他类型网站来说,保存快照的好处却是不容置疑的:不仅下载速度极快,而且经Google处理后,搜索项均用不同颜色标明,另外还有标题信息说明其存档时间日期,并提醒用户这只是存档资料。L.文本大小 这个数字是这一网页文本部份
18、的大小。未被Google编入索引的网站不会有此项资料。M.相似网页 点击相似网页 连接时,Google侦察兵便开始寻找与这一网页性质类似的网页,一般都是同一级别的网页。例如:若这页是某大学的首页,那么Google侦察兵就会寻找其他大学的首页。但如果这页是某大学计算机科学系,Google侦察兵就去找其他大学的计算机科学系,而不是其他大学的首页。,中英文字典,Google给中英文互译带来了极大的方便,只需输入一个“翻译”或“FY”和要查的中英文单词,Google会直接显示您要查的中文或英文单词的翻译。,GOOGLE结语:搜索为什么这样红?陈琼 互联网周刊2005-11-08,2“百度”(http:
19、/),“百度”搜索引擎使用了高性能的“网络蜘蛛”程序自动的在互联网中搜索信息,可定制、高扩展性的调度算法使得搜索器能在极短的时间内收集到最大数量的互联网信息。百度在中国各地和美国均设有服务器,搜索范围涵盖了中国大陆、香港、台湾、澳门、新加坡等华语地区以及北美、欧洲的部分站点。百度搜索引擎拥有目前世界上最大的中文信息库,总量达到6000万页以上,并且还在以每天几十万页的速度快速增长。由于后台应用了高效的信息索引算法,大大提高了检索时的响应速度和承受大访问量时的稳定性,“百度”搜索引擎对超过6000万网页检索一次的本地平均响应时间小于0.5秒。百度”是全球最优秀的中文信息检索与传递技术供应商,公司
20、号称“全球最大的中文搜索技术提供商”。中国所有提供搜索引擎的门户网站中,超过90%以上都由“百度”提供搜索引擎技术支持,现有客户包括新浪、搜狐(chinaren)、Tom()、腾讯、263、21cn、上海热线、广州视窗、新华网、北方时空、西部时空、重庆热线、吉林信息港、大庆信息港、东方热线、湖南信息港、南阳信息港、顺德信息网。,“百度”公司(B,Inc)于1999年底成立于美国硅谷,它的创建者是资深信息检索技术专家、超链分析专利唯一持有人百度总裁李彦宏,及其好友在硅谷有多年商界成功经验的百度执行副总裁徐勇博士。,李彦宏,1991年毕业于北京大学信息管理专业,随后赴美国布法罗纽约州立大学完成计算
21、机科学硕士学位。在美国的8年间,李彦宏先生先后担任了道琼斯公司高级顾问,华尔街日报网络版实时金融信息系统设计者,以及在国际知名互联网企业-INFOSEEK资深工程师,是新一代互联网技术领域的权威专家。他为道琼斯公司设计的实时金融系统,迄今仍被广泛地应用于华尔街各大公司的网站,其中包括华尔街日报的网络版。李彦宏最先创建了ESP技术,并将它成功的应用于INFOSEEK/GO.COM的搜索引擎中。GO.COM的图像搜索引擎是他另一项具有应用价值的技术创新。1996年,他首先解决了如何将基于网页质量的排序与基于相关性排序完美结合的问题,并因此获得了美国专利;1998年,李彦宏先生根据在硅谷工作以及生活
22、的经验,在大陆出版了硅谷商战一书,获得了各界的好评;1999年底,携风险投资回国与好友徐勇先生共同创建百度;2001年被评选为“中国十大创业新锐”之一;2002年荣获首届“IT十大风云人物”称号;2003年再次荣获“IT十大风云人物”称号;2004年1月15日,当选第二届“京城十三新锐”;2004年4月,百度总裁李彦宏当选第二届“中国软件十大杰出青年”。,(1)百度搜索引擎的特点,基于字词结合的信息处理方式。巧妙解决了中文信息的理解问题,极大地提高了搜索的准确性和查全率。支持主流的中文编码标准。包括GBK(汉字内码扩展规范)、GB2312(简体)、BIG5(繁体),并且能够在不同的编码之间转换
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网络 信息 检索 利用 系列 讲座
链接地址:https://www.31ppt.com/p-6194365.html