搜索引擎业务盈利模式分析.doc
XX理工大学毕业设计(论文)搜索引擎业务盈利模式分析学院(系): 信息工程学院 专业班级: 通信工程 学生姓名: X X X 指导教师: * * * 学位论文原创性声明本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包括任何其他个人或集体已经发表或撰写的成果作品。本人完全意识到本声明的法律后果由本人承担。作者签名: 年 月 日学位论文版权使用授权书本学位论文作者完全了解学校有关保障、使用学位论文的规定,同意学校保留并向有关学位论文管理部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权省级优秀学士论文评选机构将本学位论文的全部或部分内容编入有关数据进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于1、保密囗,在 年解密后适用本授权书2、不保密囗 。(请在以上相应方框内打“”)作者签名: 年 月 日导师签名: 年 月 日设计(论文)题目: 搜索引擎业务盈利模式分析 设计(论文)主要内容:通过阅读相关文献和书籍,在学习了解搜索引擎技术的基本原理和工作方式的基础上,研究分析现有搜索引擎服务运营商的业务运营模式和盈利模式,进行模型归纳、总结,分析比较,并探索改进、提高搜索引擎业务盈利的可能途径和方法。要求完成的主要任务:1.查阅相关文献资料15篇以上(其中英文文献不少于2篇)。2. 完成开题报告。3.学习了解解搜索引擎技术的基本原理和工作方式;搜集资料,研究分析现有搜索引擎服务运营商的业务运营模式和盈利模式,进行模型归纳、总结;对不同的运营和盈利模式、模型进行分析比较;提出进一步改进、提高搜索引擎业务盈利的可能途径和方法。4.完成不少于15000字的论文的撰写并完成答辩的相关工作。5.在设计中完成不少于3张12#图纸的描绘。6. 完成毕业设计周志。7. 完成不低于5000汉字(20000英文印刷符)的教师指定的相关文献的英译汉翻译。必读参考资料:指导教师签名 系主任签名 院长签名(章)_ 武汉理工大学本科生毕业设计(论文)开题报告1、目的及意义(含国内外的研究现状分析)一、 选题目的与意义:目的与意义:搜索引擎(search engine)是能从浩瀚的信息海洋中查找到所需信息的一个系统,简单来说,就是通过搜索获得所需答案的工具。在如今信息爆炸的时代,信息的查找犹如大海捞针,搜索引擎就像一只具有神奇力量的手,可以从纷繁扎乱的信息中精准地抽出一条清晰地检索路径。网络经济时代,商业信息已成为现代企业竞相掌握的宝贵资源。如何通过搜索引擎有效地将商业信息展现给最合适的用户,渐渐成为了搜索引擎服务商争相掌握的技术,搜索引擎的各种盈利模式应运而生。而搜索引擎也被业界公认为是继电子邮件、无线增值、和网游(互联网)之后的第四桶金,同时它也成为继电子邮箱之后,使用率最高的网络应用产品。搜索引擎发展至今,其商业模式日渐多元化,主要盈利模式也日趋明朗化。从最初的商业搜索目录式搜索,发展到到现在的技术授权模式和付费广告搜索模式两大主流盈利模式,其表现出的蓬勃生机和无限爆发力已经让各大搜索引擎商尝到了甜头。而与业界百花齐放、百家争鸣的现状形成对比的是,学术界对这方面的理论研究还仍旧处于不断完善的初级阶段,没能形成系统的、完善的理论知识结构体系。本设计报告就将对现有的搜索引擎服务运营商的业务运营模式和盈利模式,进行模式归纳、分析与总结,力求能够比较系统地构建搜素引擎业务盈利模式的知识框架理论体系。通过对现有盈利模式的分析比较研究,以探索改进、提高搜索引擎业务盈利的可能途径和方法。二、 本选题的研究状况及发展趋势:当前互联网业务正蓬勃发展,据艾瑞(iResearch)调查报告显示:2008年我国搜索引擎市场规模为502亿人民币,相比2007年同比增长731;而2009年我国搜索引擎市场规模为69.6亿人民币,相比2008年同比增长385。我国的搜索引擎市场正日益庞大,且呈持续升温的态势。我国的搜索引擎市场经历了成长期、变革期,现已步入成熟期。与早期主要靠技术授权模式盈利不同的是,目前主要靠采用关键字广告的形式来盈利。竞价排名模式由比尔.格罗斯(Bill Gross)首先提出。2001年10月,Google推出AdWords,也采用了单机付费和竞价的方式,2003年10月,推出AdSense。2001年10月,百度在国内首创“竞价排名”的概念,并开始将其在国内市场上加以推广,关键词广告(AdWords)、广告商联盟(AdSense)和竞价排名也给各它们带来了滚滚财源。被誉为互联网的“春天”的搜索引擎作为互联网的第四桶金,必将使未来搜索引擎服务提供商之间的竞争更加白热化。虽然谷歌中国已退出中国大陆,但其在全球的霸主地位仍将继续,且Google也只是将中国大陆的链接转接到谷歌香港,并非全盘放弃庞大的中国市场。而百度接下来也会继续走专业中文搜索引擎的道路,做到专而精。各大搜索引擎服务提供商在技术与盈利模式上的不断飞跃与创新也会使这个“春天”更加缤纷绚烂。在这种大环境下,搜索引擎盈利模式的探究分析也存在着深刻的学术和商业意义。参考文献:1 Catherine Seda美著,谢婷 周至 等译. 搜索引擎广告网络营销的成功之路. 电子工业出版社,2005.2 于天恩 编著.做自己的搜索引擎搜索引擎精解案例教程. 清华大学出版社 北京交通大学出版社,2007.3 闫兵. 国内搜索引擎盈利模式研究D . 上海:华东师范大学,2007.4 张鹏. 搜索引擎企业盈利模式探析J. 浙江:浙江大学经济学院,2007,(21).5 舒正勇. 商业搜索引擎的点击欺诈问题研究D. 辽宁:辽宁师范大学,2008.2、基本内容和技术方案基本内容:通过阅读相关文献和书籍,在学习了解搜索引擎技术的基本原理和工作方式的基础上,研究分析现有搜索引擎服务运营商的业务运营模式和盈利模式,进行模型归纳、总结,分析比较,并探索改进、提高搜索引擎业务盈利的可能途径和方法。技术方案:由于搜索引擎业务的持续高速发展,媒体对于搜索引擎的关注度也很高,对搜索引擎业界的各类举措与动向的报道时时更新。另外,如艾瑞市场咨询(iResearch)、中国互联网信息中心(CNNIC)之类的权威市场分析调研机构也会适时公布部分针对搜索引擎的调研报告。所以本设计主要采用定量与定性相结合的研究方法,从已经掌握的书籍和文献资料和网络数据出发,研究分析现有搜索引擎服务运营商的业务运营模式和盈利模式,并进行模型归纳总结与分析比较,探索改进、提高搜索引擎业务盈利的可能途径和方法。3、进度安排第14周:查阅相关文献资料,明确研究内容以及研究此课题的目的和意义,了解研究此课题所需的理论知识和技术支持手段,完成开题报告;第59周:研究分析现有搜索引擎服务运营商的业务运营模式和盈利模式,进行模型归纳、总结、行分析比较;提出进一步改进、提高搜索引擎业务盈利的可能途径和方法;完成毕业论文提纲;第1013周:撰写毕业设计论文,并完成相关外文参考文献的翻译;第14周:完成并修改毕业设计论文;第15周:申请毕业设计答辩;第16周;毕业设计答辩。4、指导教师意见 指导教师签名: 年 月 日目 录摘 要IAbstractII1绪论111 课题研究背景与意义112相关文献综述313本文的工作与结构42 搜索引擎概论42.1搜索引擎定义52.2主要组成523 搜索引擎的分类6231 目录搜索引擎6232 全文搜索引擎6233 元搜索引擎72.4 搜索引擎工作原理72.5 搜索引擎的历史与发展83 搜索引擎主要盈利模式1031盈利模式基本概念1132技术授权1233关键词广告13331竞价排名14332 AdWords和AdSense1934固定排名2235收费搜索234 搜索引擎盈利模式未来预测244.1个性化发展带动盈利模式升级244.2智能化搜索254.3专业化垂直搜索254.4移动搜索引擎265 结语27参考文献28致谢29摘 要搜索引擎作为技术向导型行业,各方面的发展都依赖于技术的创新发展。而随着商业搜索引擎的崛起,单纯的“搜索引擎”也已悄然发展成了新型的媒体平台。本文借助于CNNIC、iResearch等几大市场调研机构对搜索引擎市场的权威调查数据,对国内搜索引擎市场进行了细致的分析,对于搜索引擎的主流业务盈利模式进行了系统的研究分析。所得结果对于搜索引擎盈利模式发展研究和利用搜索引擎进行网络推广的个人或企业都有指导意义。论文主要研究了关键词广告、技术授权、固定排名和收费搜索等几种盈利模式,对竞价排名和AdWords等几种模式都进行了详细的研究分析,包括模型归纳、总结、利弊分析比较、发展状况和发展前景等方面。在搜索引擎未来发展方向和对提高搜索引擎业务盈利模式可能的途径和方法等方面也进行了研究。研究结果表明搜索引擎获得发展的本质就是靠“技术改变本身”,目前的盈利模式都存在着不同的缺陷,且模式过于单一。搜索引擎只有靠发展技术将搜索引擎带入个性化、专业化、智能化才能取得盈利模式上的创新与发展。关键词: 搜索引擎 工作原理 盈利模式 未来发展 AbstractSearch engine as a technical wizard-based industry, all aspects of development are dependent on the innovation and development of the technology. While, With the rise of commercial search engines, simple "search engine" has quietly developed into a new media platforms.This design based on the authority date about the search engine from several major market research agencies, like CNNIC, iResearch.Detailed Analyzed the domestic search engine market,systemic Analyzed about mainstream business profit model of the search engine.The results has directive function for both the development of search engine profit model or those person or businesses who popularize network by using search engine.This thesis focus on researching keyword advertising, technology licensing, fixed position and charges search etc. profit model. Carried out some detailed analysis of the PPC and AdWords and other several models, including the model induction, summarize, compare the advantages and disadvantages, the development of situation and development prospects and so on.The future direction of the search engine and the possible ways and methods to improve the search engine business profit model , were also studied.The results show that of the nature of search engine's development is through the "change itself by Technology ", the current profit model are the existence of different defects, and the model is too single.Only by developing search engine technology speed up search engines into personalized, professional, intelligent can obtain the innovation and development of profit model.Keywords: search engine Work Principle Profit model Future development1绪论11 课题研究背景与意义随着网络信息时代的到来,搜索引擎逐渐取代门户网站成为人们进入互联网的窗口。根据中国互联网络信息中心(CNNIC)的报告数据显示,2009年上半年我国网民规模已达3.38亿人,普及率达25.5%,较2008年增长率为13.4%;而截至2009年12月,我国网民规模已达3.84亿,互联网普及率进一步提升,达到28.9%。我国傲居世界第一的网民规模和快速提升的互联网普及率说明互联网正在走进人们的工作和生活。伴随着互联网业务的蓬勃发展,搜索引擎也迎来了它的“春天”。据艾瑞(iResearch)市场调查报告显示:2008年我国搜索引擎市场规模为502亿人民币,相比2007年同比增长731;而2009年我国搜索引擎市场规模为69.6亿人民币,相比2008年同比增长385。我国的搜索引擎市场正日益庞大,且呈持续升温的态势。我国的搜索引擎市场经历了成长期、变革期,现已步入成熟期1。下图1-1是艾瑞调查中心对20022013年国内搜索引擎市场规模调查及预测的图表。图1-1 2002-2013年国内搜索引擎市场规模及预测在现今的网络经济时代,商业信息已成为现代企业竞相掌握的宝贵资源。如何通过搜索引擎有效地将商业信息展现给最合适的用户,渐渐成为了搜索引擎服务商争相掌握的技术,搜索引擎的各种盈利模式应运而生。而搜索引擎也被业界公认为是继电子邮件、无线增值、和网游(互联网)之后的第四桶金2,同时它也成为继电子邮箱之后,使用率最高的网络应用产品。搜索引擎市场一直是以效果为导向的重要网络推广平台,且经过多年的发展已经得到了广大中小企业的认可。互联网数据中心(DCCI)统计数据显示,2009年搜索引擎广告市场营收规模增长37.9%,达到70.1亿,比2008年该数字增幅达38%。DCCI预计2010年搜索引擎将会逐步走出低谷,增长率恢复到42.2%,营收规模将达99.7亿元。越来越多的企业加入到这一领域中来,而搜索业内的两大霸主百度与Google却都面临着各自的问题。目前搜索引擎盈利模式与早期以技术授权为主不同的是,现在主要靠采用关键字广告的形式来盈利。竞价排名模式由比尔.格罗斯(Bill Gross)首先提出,2001年10月,百度在国内首创“竞价排名”的概念,并开始将其在国内市场上加以推广。2001年10月,Google推出AdWords,也采用了单机付费和竞价的方式,2003年10月,推出AdSense。关键词广告(AdWords)、广告商联盟(AdSense)和竞价排名也给各它们带来了滚滚财源。搜索引擎发展至今,其商业模式日渐多元化,主要盈利模式也日趋明朗化。从最初的商业搜索目录式搜索,发展到到现在的技术授权模式和付费广告搜索模式两大主流盈利模式,其表现出的蓬勃生机和无限爆发力已经让各大搜索引擎商尝到了甜头。而与业界百花齐放、百家争鸣的现状形成对比的是,学术界对这方面的理论研究还仍旧处于不断完善的初级阶段,没能形成系统的、完善的理论知识结构体系3。本设计报告就将对现有的搜索引擎服务运营商的业务运营模式和盈利模式,进行模式归纳、分析与总结,力求能够比较系统地构建搜素引擎业务盈利模式的知识框架理论体系。通过对现有盈利模式的分析比较研究,以探索改进、提高搜索引擎业务盈利的可能途径和方法。未来搜索引擎服务提供商之间的竞争更加白热化。虽然谷歌中国已退出中国大陆,但其在全球的霸主地位仍将继续,且Google也只是将中国大陆的链接转接到谷歌香港,并非全盘放弃庞大的中国市场。而百度接下来也会继续走专业中文搜索引擎的道路,做到专而精。各大搜索引擎服务提供商在技术与盈利模式上的不断飞跃与创新也会使这个“春天”更加缤纷绚烂。在这种大环境下,搜索引擎盈利模式的探究分析也存在着深刻的学术和商业意义。12相关文献综述虽然目前搜索引擎作为时下热门领域,很多文献都有涉及搜索引擎领域,但它们的研究重点却不尽相同。大多数文献都是从企业用户进行网络营销的角度在进行探讨,也有很多从纯粹技术角度出发的。从作者所搜集到的文献中,有像做自己的搜索引擎:搜索引擎精解案例教程(于天恩编著,2007年)、FTP搜索引擎数据采集策略的研究(计算机工程与设计,2009年)和基于用户反馈的搜索结果排序技术研究(黑龙江大学梁婷婷,2009年)这样一类出于计算机科学、情报学、图书馆学专业研究人员的文献,也有如我国搜索引擎市场发展研究(厦门大学马莉婷,2009年)和搜索引擎排名与电子商务搜索营销分析(商业研究,2008年第369期)从商业角度分析市场与网络营销的论文与期刊,还有百度与Google运营模式的比较研究(河南大学赵翔,2009年)这样针对具体案例对搜索引擎盈利模式进行研究分析的文献。搜索引擎广告网络营销的成功之路(美Catherine Seda著,谢婷、周至等译,电子工业出版社,2005年)是少有的对与搜索引擎进行专业研究的书籍,但它仍是从市场营销学的角度,以企业和广告商的立场在对搜索引擎进行解读。书籍方面关于著名搜索引擎企业成功经营管理的书比较多,这之中也会涉及到盈利模式,如Google品牌战略(中信出版社,尼尔·泰勒著,2007年)、李彦宏的百度世界:一个创业型公司成功的标本案例(中信出版社,程东升著,2009年)、Google AdWords营销:网商成功之道(电子工业出版社,李鹏、王悦、缪晨卿著,2009年)等。这类书籍偏向于介绍企业的发展史和企业文化,对与搜索引擎盈利模式的研究并非重点。对于搜索引擎盈利模式进行研究的文献也很多,可是它们大多都没有深入细致的研究分析内容,只是简单的介绍了搜索引擎的几种主流盈利模式,如搜索引擎企业盈利模式探析(商场现代化2007年,第510期)、搜索引擎的发展及盈利模式研究(武汉大学焦玉英、金世发,2006年)、搜索引擎服务市场盈利模式分析(河南科技大学,王丽),而对于这方面的研究华东师范大学闫兵2007年4月发表的硕士论文国内搜索引擎盈利模式研究和四川大学黄薇2006年4月的硕士学位论文搜索引擎传播与盈利模式研究就细致和系统很多。普遍认为搜索引擎的收入来自网络公司和寄希望于搜索引擎网络推广的企业,而并非是搜索引擎使用者。13本文的工作与结构本文的基本工作内容与技术方案:通过阅读相关文献和书籍,在学习了解搜索引擎技术的基本原理和工作方式的基础上,研究分析现有搜索引擎服务运营商的业务运营模式和盈利模式,进行模型归纳、总结,分析比较,并探索改进、提高搜索引擎业务盈利的可能途径和方法。由于搜索引擎业务的持续高速发展,媒体对于搜索引擎的关注度也很高,对搜索引擎业界的各类举措与动向的报道时时更新。另外,如艾瑞市场咨询(iResearch)、中国互联网信息中心(CNNIC)之类的权威市场分析调研机构也会适时公布部分针对搜索引擎的调研报告。所以本设计主要采用定量与定性相结合、案例分析等研究方法,从已经掌握的书籍和文献资料和网络数据出发,研究分析现有搜索引擎服务运营商的业务运营模式和盈利模式,并进行模型归纳总结与分析比较,探索改进、提高搜索引擎业务盈利的可能途径和方法。本文对搜索引擎的发展及其盈利模式进行研究分析,全文共分为五个章节,第一章绪论部分,论述作者选择此课题的研究背景与意义。根据iResearch、CNNIC、DCCI等权威机构对搜索引擎市场的数据调查及分析,对国内、外网民数量增加情况,搜索引擎用户增加情况和搜索引擎企业竞争格局状况进行研究论述。第二章为搜索引擎概述部分,主要针对的是搜索引擎的基本概念、技术原理与发展历史。作者将本设计论文的主题安排在第三章,这一章主要对关键词广告、技术授权、固定排名等一些搜索引擎主要的盈利模式进行了系统的分类研究与分析。第四章从个性化、专业化、智能化与移动搜索等几方面对未来搜索引擎盈利模式进行了预测分析。最后第五章是结束语对论文进行总结。2 搜索引擎概论据中国互联网络信息中心(CNNIC)数据显示,2008年底我国搜索引擎用户规模为2.03亿,年增长率达33.6%4;而到2009年我国搜索引擎用户已达2.8亿,年增长38.6%,市场盈利近70亿人民币,搜索引擎在网民中的普及率达73.3%,较2008年上升了5.3个百分点,超过了即时通信成为网民使用互联网的第三大应用5。搜索引擎已经作为人们进入互联网的必备工具,在人们日常生活中起着越来越重要的作用。2.1搜索引擎定义搜索引擎(search engine)就是一个可以为用户提供检索服务的系统系统。它的工作过程是系统按照一定的策略并且运用特定的计算机程序来搜集、发现互联网上的信息,并在对信息进行理解、提取、组织和处理6之后显示给用户,为用户提供检索服务,从而起到信息导航的目的。2.2主要组成搜索引擎主要由以下四个部分组成7: 搜索器。搜索器的功能是通过网络蜘蛛等程序遍历URL的方式在互联网中漫游,发现和搜集信息。搜索器顺着网页上超链接遍历web空间,沿着网络上的链接从一个网页爬到另一个网页,如此重复地采集网页资料,并以宽度优先、深度优先等方式循环地发现信息。搜索器对HTML、XM、FTP文件等各种各样种类的信息进行搜集,还可以把web空间按域名、IP等方式划分。它是要保持运作和更新的高速度的计算机程序,还需定期更新,以尽可能多、尽可能快地搜集各种类型的新信息,同时防止无效链接和死链接。 索引器。其主要功能是理解并提取,即理解搜索器所搜索的信息后,再从中提取出索引项,用来表示文档以及生成文档库的索引表。索引项分客观索引项和内容索引项两种。客观索引项包含作者名、URL、编码、链接流行度(Link Popularity)等等;内容项(如关键词等)又分为单索引项和多索引项两种。在搜索引擎中,一般要给单索引项赋予一个表示该索引项对文档的区分度的权值,用来计算查询结果的相关度。索引器一般使用集中式索引或分布式索引两种算法。数据量很大时,必须实现即时索引(Instant Indexing),否则就无法跟上急剧增加的信息量更新速度。索引算法对索引器的性能影响很大,索引的质量在很大程度上影响着搜索引擎的有效性。检索器。检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并能按用户的查询需求合理反馈信息的用户相关性反馈机制。检索器常用的信息检索模型包括有集合理论模型、代数模型、概率模型和混合模型等四种。用户接口。用户接口的作用是接纳用户查询、显示查询结果、提供用户相关性反馈机制。其主要的作用是方便用户使用搜索引擎,高效快速地从搜索引擎中得到及时有效的信息。用户接口分为简单接口和复杂接口两种,简单接口只提供用户输入查询串的文本框;复杂接口可以让用户对查询进行限制,如域名范围、出现位置、逻辑运算、相近关系、信息时间、长度等等。23 搜索引擎的分类搜索引擎按工作方式即信息搜集方式和服务提供方式的不同大致可以分为三类:目录搜索引擎( Directory Search Engine)、全文搜索引擎( Full Text Search Engine)和元搜索引擎(Mate Search Engine)。231 目录搜索引擎目录式搜索引擎是最早出现的基于万维网的搜索引擎,它主要以人工或半自动的方式发现和搜集信息,依靠编目员的知识进行甄别和分类。网络信息依照主题被分成若干大类,每个大类又被分类成若干小类,如此类推就,形成一般有五六层等级的主题索引式可浏览搜索引擎。用户可以不用靠关键词查询,仅靠浏览分类目录都能查找到所需资料。由于目录式搜索引擎的信息分类和信息搜集都加入了人的智能,因此其搜索的准确度和导航的质量都是相当高的,但缺点是由于人工信息搜集速度较慢,且维护量大,实时性和查全率并不是很好。目录索引虽然具有搜索功能,但并不能算严格意义上的搜索引擎,是按目录分类的网站链接列表,或者说只是网站级的搜索引擎。此类搜索引擎最具代表性的是Yahoo,另外我们熟悉的搜狐也属于目录式搜索引擎。232 全文搜索引擎全文搜索引擎或称机器人搜索引擎,是名副其实的搜索引擎,通常分为信息搜集、处理和查询三大模块。一般由Spider程序以某种策略在互联网中自动的通过URL列表搜集和发现信息,由索引器为搜索到的信息进行信息处理建立索引,最后由检索器处理用户的查询输入,在索引库内进行信息查询,并返回查询结果给用户。大家所熟知的Google和百度都属全文搜索引擎,它们都是按这种方式从互联网上抓取网站上以文字为主信息存入数据库,再对与用回查询条件匹配的记录进行检索,并按一定的排列顺序为用户返回结果,所以称之为真正的搜索引擎。全文搜索引擎的优点是信息量大、不用人工介入、实时性强;缺点是信息良莠不齐,用户需对信息进行筛选。233 元搜索引擎元搜索引擎也叫集搜索引擎。元搜索引擎通常没有自己的网络机器人和数据库,而是在搜索的过程中扮演中间代理的角色,接受和翻译用户的查询请求后,递交给多个搜索引擎,并将反馈的信息进行重复排除、重新排序等处理后将查询结果返回给用户。它是对搜索引擎进行搜索的搜索引擎。元搜索引擎的优点是查全率高,返回结果的信息量更多更大;缺点是用户需要做更多的筛选。代表的有搜魅网和马虎聚搜等。2.4 搜索引擎工作原理搜索的过程就是搜索引擎在接收到用户的要求后进行处理,再从文件组中筛选和提取出符合要求的文件的过程。搜索引擎并不是真的搜索互联网,而是对于现整理好的信息索引数据库,其工作原理大致可以分为以下三步: 搜集信息:搜索引擎自动进行信息搜集。搜索引擎利用Spider程序从互联网上自动抓取网页,访问互联网。Spider程序根据网页中的URL链接到其中的超链接,并重复此过程,连到数据库上所有到其他网页的链接,把所有爬过的网页搜集起来。Spider程序一般会定期重访所有网页和不定期重访重要网页,更新网页搜因数据库,以反映出网页内容的更新情况,增加新链接同时也去除无效链接,并根据一定规则重排存入自己的数据库。处理信息:搜索引擎整理信息的过程称为“建立索引数据库”,把搜索引擎搜集起来的信息保存并进行一定的编排。由分析索引系统对收集回来的网页进行分析,提取出相关网页信息(包括网站首页的URL、编码类型、关键词、生成时间、大小、与其它网页的链接关系等),再根据一定的相关度算法计算得出网页针对关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。搜索引擎抓到网页后,还要做提取关键词,建立索引文件等大量的预处理工作,才能提供检索服务。搜索引擎的其他操作还包括去重、分析超链接、计算网页的重要度等,这样就根本用不着重新翻查它所有保存的信息而迅速找到所要的资料。提供检索服务。根据用户输入的关键词在索引数据库中搜索排序。当用户输入关键词向搜索引擎发出查询命令后,搜索引擎接受查询,由搜索系统程序从网页索引数据库中找到与该关键词相匹配的所有相关网页,并向用户返回信息资料。目前,搜索引擎返回信息主要以网页链接的形式提供,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户,为了方便用户使用,通常搜索引擎会在这些链接下提供一小段来自这些网页的摘要信息。 用 户 Web浏览器 检索数据库 接 口互联网 spider 网页数据库 索引库图2-1 搜索引擎工作原理图通常我们所看到的全文搜索引擎只是搜索引擎系统的检索界面。搜索引擎会在后台庞大的数据索引库中根据与用户关键词的匹配程度查找相关网页,并按一定规则排序后反馈给用户。但由于不同的搜索引擎的索引数据库不同,而且排名规则也不尽相同,这就形成了我们即使用同样的关键词搜索,在不同的搜索引擎中搜出来的显示结果却不同的现象。在使用目录索引搜索引擎时,即使不按关键词查询,只要在相关目录中逐层查询,也可以找到所需信息。如果在目录搜索引擎中使用关键词查找,关键词也只能是网站的名称、网址、简介等类容,而且返回的结果并非具体页面,而是被收录网站首页的URL地址。2.5 搜索引擎的历史与发展被认为是现代意义上搜索引擎鼻祖的Archie是于1990年由加拿大魁北克省蒙特利尔的麦克吉尔(University of McGill)大学的大学生 Alan Emtage 、Peter Deutsch 、Bill Wheelan 发明的。当时万维网还没出现,人们共享交流资源都是通过FTP来实现的。Archie是第一个能自动索引互联网上匿名FTP网站文件的程序,它能定期搜集并分析FTP服务器上的文件名信息,提供查找分布在各个FTP主机中的文件。但是用户必须输入精确地文件名进行搜索,Archie只能告诉用户哪个FTP服务器能下载该文件。1993年2月,6个Stanford University(斯坦福大学)大学生的想法是分析字词关系,以对互联网上的大量信息作更有效的检索,产生了Excite。他们还发布了一个供webmasters在自己网站上使用的搜索软件版本Excite for Web Servers。Excite后来曾以概念搜索闻名,但2002年5月被Infospace收购的Excite停止自己的搜索引擎,而改用元搜索引擎 Dogpile。1993年6月,由麻省理工大学的Matthew Gray开发的WWW Wanderer(互联网游荡者),是世界上第一个Spider程序,是第一个利用HTML网页之间的链接关系来检测万维网规模的“机器人(Robot)”程序。它被用来追踪互联网发展规模,刚开始只是被用来统计互联网上的服务器数量,后来也能够捕获网址(URL)。1994年1月,第一个兼具搜索和浏览功能的分类目录EINet Galaxy(Tradewave Galaxy)上线。1994年4月,华盛顿大学的Brain Pinkerton的小项目网页抓取器(Web Crawler)是互联网历史上第一个支持全部文件的全文搜索引擎,而在此之前用户仅限于通过网页地址和摘要搜索。同年5月,由卡内基梅隆大学的Michael Mauldin创建的Lycos在美国正式发布,它是搜索引擎史上又一个重要的进步,Lycos推出了基于robot的数据发掘技术,除了支持相关性排序外,还提供了前缀匹配和字符相近限制,它第一个开始在搜索结果中使用了网页自动摘要。1994年底,斯坦福大学的两博士生杨致远和David Filo合手创立了鼎鼎大名的Yahoo!1998年9月,Google诞生。1999年9月15日博士生Larry Page注册了的域名,后在Sergey Brin、Scott Hassan和Alan Steremberg的共同参与下完成了Google由Alpha版到Beta版的蜕变。Google事目前世界上用户最多的搜索引擎,目前有158个国际域名,112种界面语言,可以实现117种翻译!并且在现实界面个搜索技术上都实现了革命性的创新。2000年Google进行数据库升级,加之为Yahoo提供搜索技术支持,实现了进一步的飞跃。1999年5月,以做世界上最大最快的搜索引擎为创立目标的Fast公司推出了自己的搜索引擎AllTheWeb。它的网页搜索可利用开放式目录管理(ODP)自动分类,支持flash和pdf搜索,支持多语言搜索,还提供新闻搜索、图像搜索、视频、MP3、和FTP搜索,拥有极其强大的高级搜索功能,曾经是最流行的搜索引擎之一。2000年1月,李彦宏与徐勇在北京中关村创立百度公司。2001年8月告别为其他门户网站提供技术支持的单一模式,发布搜索引擎Beta版在中国首创竞价排名商业排名模式。2001年10月22日,正式发布Baidu搜索引擎,并于2005年8月在美国上市。百度专注中文搜索引擎,某些技术方面虽不及Google,但却是目前全球最大的中文搜索引擎。2002年开始很多公司受搜索市场前景和Google神话的吸引,积极进入搜索引擎市场,谋求一席之地。如2004年8月3日,搜狐公司推出中文搜索引擎搜狗。2005年6月,新浪正式推出自主研发的搜索引擎“爱问”;2007年起,新浪爱问使用Google搜索引擎;2006年9月,微软公司正式推出了拥有自主研发技术的Live Search,宣布进军搜索引擎市场,挑战Google在网络搜索领域的霸主地位;2006年12月,网易公司推出中文搜索引擎有道;2009年6月1日,微软正式上线原名为Kumo的搜索引擎Bing,中文名“必应”等。搜索引擎的发展史今后还继续会随着第三代搜索引擎技术的创新与完善而不断更新。3 搜索引擎主要盈利模式根据CNNIC统计,搜索引擎2.8亿用户中,年龄在25岁以上、学历大学