《搜索引擎教程》PPT课件.ppt
搜索引擎,提纲,搜索引擎的发展简史搜索引擎的分类使用搜索引擎搜索引擎的基本原理第一次上机总结搜索经济搜索引擎的未来发展趋势,1 搜索引擎的发展简史,-,搜索引擎的鼻祖:Archie,1990年由Montreal的McGill University(麦吉尔大学)学生Alan Emtage、Peter Deutsch、Bill Wheelan发明的Archie(Archie FAQ)实际上是一个可搜索的FTP文件名列表,现代搜索引擎的起源:Wanderer,1993年MIT 的学生Matthew Gray开发了World Wide Web Wanderer,它是世界上第一个利用网页之间的链接关系来监测Web发展规模的机器人(Robot)程序。最开始只是用来统计互联网上的服务器数量,之后发展为也能捕获网址。,Yahoo,1994.4美籍华人Jerry Yang(杨致远)和David Filo完成了一套搜索软件。最初Yahoo的数据是手工输入的,实际上只是一个可搜索的目录。1995年1月,正式成立Yahoo网站,第一个现代意义上的搜索引擎:Lycos,1994.7 Carnegie Mellon University 的Michael Mauldin 将 John Leavitt的蜘蛛程序接入到其索引程序中,创建了Lycos.提供了前缀匹配和字符相近限制、网页自动摘要、数据量相对较大。,Infoseek,1994年底,Infoseek推出,沿袭Yahoo!和Lycos的概念。友善的用户界面、大量附加服务使其后来者居上。1995.12与Netscape的战略性协议使它变得很强势2001年2月,Infoseek改用Overture的搜索结果,第一个元搜索引擎:Metacrawler,元搜索引擎(A Meta Search Engine Roundup)。用户提交搜索后,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。第一个元搜索引擎,是Washington大学硕士生 Eric Selberg 和 Oren Etzioni开发的 Metacrawler。,第一个支持自然语言搜索的搜索引擎:AltaVista,1995年12月出现(AltaVista Public Beta Press Release)。AltaVista是第一个支持自然语言搜索的搜索引擎。2003年AltaVista被Overture收购,后者是Yahoo的子公司。,搜索引擎的后来之王:Google,1995年,佩奇来到斯坦福读博士,开始网络链接结构方面的研究项目BackRub。之后,他和布林提出了PageRank技术,用于对网页评级之后用于搜索引擎,改写了搜索引擎的定义,建立了Google。,搜索引擎的后来之王:Google,Google在斯坦福引起了人们的关注。佩奇开始准备出售该技术,但是没有成功。Sun公司创始人的投资,随后成立公司。2000年和Yahoo合作,一飞冲天。2004年7月上市,市值250亿,增长速度超过微软。,Google之特点,专注、进取、朴素、低调、神话般的创业故事,中文搜索引擎老大:百度,2000.1李彦宏创立了百度。2001.8发布百度测试版。目前是最大的中文搜索引擎MP3搜索特色,百度的特点,专注于技术专注于中文搜索,2 搜索引擎的分类,-,目录搜索引擎,以人工方式或半自动方式搜集信息信息准确、导航质量缺点是需要人工介入、维护量大、信息量少、信息更新不及时,机器人搜索引擎,由一个称为蜘蛛(Spider)的机器人程序自动搜索信息优点:信息量大、更新及时、无需人工干预缺点:返回信息过多,有很多无用信息。,元搜索引擎,利用其他搜索引擎返回统一的搜索结果。返回信息量更大、更全。缺点是不能充分使用所有搜索引擎的功能,其他搜索产品,建站时间 1999.5世界排名20站长年龄22岁收购前月收入100万收购价格,号称5000万,实际可能1000万,3 使用搜索引擎,-,Google主页,Google 的含义,“Googol”是一个数学名词,表示10的100次方,巨大的数字,Google 使用这一术语体现了该公司整合网上海量信息的远大目标。,Google基本搜索,基本搜索方法逻辑“与”、“非”、“或”,即+,-,OR1.与操作:搜索结果要求包括两个及两个以上关键字。关键字之间用空格。2.非操作:搜索结果要求不包含某些特定信息。在排除的关键词前加-,英文字符,-号前空格,后面不能有空格。3.或操作:搜索结果至少包含多个关键字中的任意一个关键字之间用“OR”表示,OR必须用大写。GOOGLE不支持通配符,关键字中的“*”或“?”会被忽略。GOOGLE对英文字符大小写不敏感。GOOGLE用句子做关键字,必须加英文引号。,google强制搜索,Google对一些网路上出现频率极高的英文单词,如“i”、“com”、“www”等,以及一些符号如“*”、“.”等,作忽略处理.搜索:www的历史 internet 结果:因为使用过于频繁,没有被列入搜索范围:www 的对忽略的关键字进行强制搜索,在该关键字前加上“+”号.搜索:+www+的历史 internet 结果:已搜索有关+www+的历史 internet的网页.另一个强制搜索的方法是把关键字用英文双引号引起来.搜索:“www的历史 internet”结果:已搜索有关www的历史 internet的网页.注意:大部分常用英文符号(如问号,句号,逗号等)无法成为搜索关键字,加强制也不行.,Google限定搜索,Site表示搜索结果局限于某个具体网站或者网站频道 Link返回所有链接到某个URL地址的网页 Inurl返回的网页链接中包含第一个关键字,后面的关键字则出现在链接中或者网页文档中。Allinurl返回的网页的链接中包含所有查询关键字 Intitle语法返回的网页标题中包含第一个关键词,后面的关键词则出现在链接中或者网页文档中。Allintitle返回的网页的链接中包含所有查询关键字 filetype在某一类文件中查找信息。,Google高级搜索,Google的高级搜索页(命令的文字界面形式)将搜索范围限制在某个特定的网站中 排除某个特定网站的网页 将搜索限制于某种指定的语言 查找链接到某个指定网页的所有网页 查找与指定网页相关的网页 可以比较直观地在搜索中应用这些功能。,Google工具栏,主要有以下功能:搜索网页:在任何网页上随时使用Google的查询。检索网址:站内查询,限定搜索范围于您所在的网站内。PageRank:Google对这网页的评价。网页详情:提供您更多有关这网页的详情,例如和这页类似的其它网页,哪些网页有键连到此,或这网页在 Google 里的存档等等。标明:用不同的颜色标释出您的查询字词。,4 搜索引擎的基本原理,-,搜索引擎工作原理,搜索引擎三段式工作流程,搜集批量搜集,增量式搜集;搜集目标,搜集策略预处理关键词提取;重复网页消除;链接分析;索引服务查询方式和匹配;结果排序;文档摘要,搜集,整理,服务,搜索引擎系统的体系结构,网页搜集,网页数据库的基本策略:1)定期搜集:2)增量搜集:网页的抓取策略:1)“爬取”策略:2)维护URL:,“爬取”策略,将Web看作是一个有向图,搜集过程从给定的起始url集合S开始,沿着网页中的链接,按照一定的策略(先深/先宽/others)遍历。这个过程象蜘蛛(spider)在蜘蛛网(Web)上爬行,维护URL,系统进行第一次全面的网页搜集之后,维护相应的URL集合,以后的搜索基于此集合。每搜到一个网页,如果它发生变化并有新的URL,就将新URL也放到集合中。,人工添加,网站拥有者主动向搜索引擎提交自己的网址系统在一定时间内定向向那些网站派出“蜘蛛”程序,扫描并收集有关信息。,存储网页,搜集到的网页将存储到知识库(repository)中。知识库包含每个网页的docID,长度,URL以及网页的全部HTML。由于网页数量会很多,所以,网页在存入知识库时要进行压缩处理。,预处理,关键词的提取重复或转载网页的消除链接分析网页重要程度的计算,关键词的提取,什么是倒排文件(inverted file)?需要从网页源文件中提取出能够代表它的内容的一些特征,而关键词就是这种特征最好的代表。其中涉及到英文的分词和中文的分词。对一篇网页来说,有效的词语数量一般是200左右。,链接分析,链接是分析网页重要的信息1.链接描述文字准确的反映了网页的内容2.网页之间的链接关系,反映了网页的重要程度(PageRank Google),网页重要程度计算,PageRank(Google)指向一个网页的链接越多,说明这个网页越重要。把整个web结构看作一个矩阵。N个网页就形成一个nn的矩阵。,查询服务,查询方式和匹配结果排序文档摘要,查询方式和匹配,查询方式指的是系统允许用户提交查询的方式。查询短语分词对查询短语进行分词匹配将查询关键词与倒排文件的索引词进行匹配,结果排序,按照某种评价方式,将搜索结果以某种顺序显示出来。评价方式相关性早期采用基于词汇出现频度的方法词在不同文档中出现的频率PageRank在预处理阶段形成重要性指标,和查询阶段的相关性指标相结合。,文档摘要,静态生成方式预处理阶段生成,如取网页的前512个字节,或者取每一段的第一句话。动态生成方式在查询时,根据查询关键词的位置动态生成。,5 第一次上机总结,-,从用户的角度看搜索引擎,搜的快,搜的全,搜的准功能多,好用,好看,搜的快,搜的全,功能多,好用,好看,北大天网,6 搜索经济的诞生,-,中国互联网络发展状况统计报告,截至2008年底,中国网民规模达到2.98亿人,互联网普及率达到22.6%。中国的网站数,即域名注册者在中国境内的网站数(包括在境内接入和境外接入)达到287.8万个,网页总数超过160亿个。2008年网络媒体的使用率78.5%,达到23400万人。搜索引擎的使用率为68.0%,在各互联网应用中位列第四。网络购物用户人数已经达到7400万人,网络售物网民数已经达到1100万人,通过网络进行旅行预订的网民数达到1700万人。网上教育的使用率为16.5%,基本与2007年持平。,互联网的重心发展历程,注意力经济(眼球经济),提供网上图片等各种信息注重提供免费信箱、聊天室等各种服务吸引人来,注重会员数。,从眼球经济到拇指经济,被动,主动,搜索力经济,拇指变成了十指,被动变成了主动搜索成了网络经济的引擎和发动机,搜索引擎的盈利模式,搜索引擎最初并没有显示出价值,只是一个免费的附加服务。PageRank算法的诞生,使得网络盈利成为可能根据搜索结果显示相应的广告,这是网络广告的真正创新,搜索引擎的盈利模式,竞价排名1998年Overture推出收费竞价排名服务,谁出的钱多,谁排前面,搜索引擎成了摇钱树。搜索与购物网站绑定,时长竞价排名,按天竞价消除恶意点击,搜索等于搜钱,2007年中国搜索引擎市场规模达29.0亿元,比上一年增长108.3%艾瑞咨询,中国搜索引擎市场份额,中美日市场规模对比,重构搜索力,2003年8月,搜索引擎重新回到Yahoo首页的突出位置。并不完全是搜索引擎可以赚钱了关键是它还可以整合其现有的业务资源2004年8月,搜狐推出了搜索引擎搜狗。2003年开始,微软重组MSN部门,并希望在下一代操作系统中集成搜索。亚马逊推出了A9网站,专注于购物搜索,搜索引擎大战,微软数次提出要收购Google.结果被Google挖走李开复IBM也推出了自己的搜索技术搜索引擎和门户网站之争养虎为患不得不养复杂的竞争合作关系,中国搜索用户的首选,中国高端搜索用户的首选,“百度”视频,“Google”视频,群狼共舞,搜索鸟,网络世界的未来统治者?,目前,Google是当之无愧的世界老大?但是未来呢?Google在中国呢?,搜索引擎的未来发展趋势,-,搜索引擎自身的发展趋势,专业化主题化垂直搜索引擎个性化搜索工具条桌面搜索智能化本地化基于位置的搜索服务,技术更复杂,应用更简单,搜索引擎所引发的互联网变化,搜索引擎的革命引发互联网应用模式、商务模式和业务形态的革命搜索将成为一个网站的必备配置搜索引擎的综合化基于搜索引擎的信息增值业务竞争情报系统、商务搜索、8848的购物搜索、Google信箱,搜索引擎的重要性,从内容为王到搜索为王从搜索服务到搜索平台基于搜索平台的搜索增值服务,Google 向 Microsoft 发出挑战,Microsoft PK GooglePC时代 PK Internet时代,产品竞争,人才竞争,历史事件回放:2005年7月18日,微软全球副总裁李开复跳槽Google,担任中国区总裁,Microsoft 与 Google 的竞争,代表两个时代的竞争 PC时代 vs 互联网时代李开复跳槽事件已经超出了微软与Google两家公司对一位技术人才的争夺本身。这是一场PC时代巨人和互联网时代巨人对于未来霸主地位的争夺预言以微软为代表的PC时代正在加速没落,而Google正在显示一个新时代引领者的形象,回首PC时代,美国Microsoft、IBM、Intel.中国Lenovo、Founder.,面对机遇,展望Internet时代,美国Google、Yahoo、Ebay、.中国Baidu、NetEase、Alibaba.,美国模式和中国模式,美国模式=技术+机遇+管理重视技术开发、重视研发投入Microsoft=Bill Gates+PCYahoo=杨致远、David Filo+Internet Google=Larry Page、Sergey Brin+Internet,中国模式=管理+技术+机遇薄利多销巨大市场带来的消极影响不重视技术开发和研发经费投入短视行为、跟进行为(DVD、VCD行业的教训),谢谢大家,