大数据时代创新课件.ppt
,1,提纲,大数据所带来的机遇和挑战,大数据的概念及技术,大数据时代的思维和变革,大数据在企业中的应用案例,2,每天有2940亿封电子邮件发生,如果这些是纸质信件,在美国需要花费两年时间处理。每天有200万篇博客在网上发布,这些文章相当于时代杂志刊发770年的总量。每天有2.5亿张照片上传至社交网站Facebook,如果都打印出来,摞在一起能有80个埃菲尔铁塔那么高。每天有86.4万小时视频被上传至视频网站Youtube,相当于不间断播放视频98年。每天有1.87亿个小时的音乐会在流媒体音乐网站Pandora上播放,如果一台电脑从公元元年就开始播放这些音乐会,到现在还没完没了地接着放。,3,一天之间,互联网上要发生多少事,4,5,地球上至今总共的数据量:在2006年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据;在2011年,这个数字达到了1.8ZB。而有市场研究机构预测:到2020年,整个世界的数据总量将会增长44倍,达到35.2ZB(1ZB=10亿TB)!,6,“大数据”时代的爆炸增长,想驾驭这庞大的数据,我们必须了解大数据的特征。,2008年9月4日自然杂志社,推出的名为“大数据”的专刊,创造出了“大数据”这个概念。,“大数据”的诞生,7,美国疾病控制中心要在流感暴发两周后才知道谷歌的大数据预测只需要一天,“谷歌流感趋势”把大数据推上风口浪尖,8,大数据(big data),巨量数据集合是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合。,什么是“大数据”?,9,“大数据”特征,10,Hadoop是基于Google有关大数据的论文实现的开源项目,最初的框架由Doug Cutting在2005年提出,目前是由Apache维护的开源项目。从初创到现在,Hadoop体系在几年中开发完成了一系列重要的子项目,已经形成了一个涵盖数据存储、管理和分析功能的较为完整的大数据生态系统,成为大数据存储与处理领域地位最重要、应用最广泛的开源框架。,大数据存放在哪?如何分析?,11,Hadoop是运行在大量通用计算单位上提供海量数据存储与并行计算的平台框架。基于X86集群水平可扩展基于MapReduce的并行计算能力设计规模:PB级的数据量,数千台计算节点,大数据存放在哪?如何分析?,12,提纲,大数据所带来的机遇和挑战,大数据的概念及技术,大数据时代的思维和变革,大数据在企业中的应用案例,13,量化思维一切皆可量化决策思维让数据驱动全样思维样本=总体关联思维追求相关关系,14,大数据思维,Stephen Beck每一天,我们的身后都拖着一条由个人信息组成的长长的“尾巴”,这只是因为我们生活在一个现代化的世界。我们点击网页切换电视频道驾车穿过自动收费站用信用卡购物使用手机而雅虎、Google这样的公司,正在以平均每人、每月2500条信息的速度,捕获我们的详细数据。,15,1.量化思维:一切皆可量化,数据是指存储在某种介质上能够识别的物理符号,是对客观事物性质和状态的描述。先有数据再说应用。,16,数据,从最不可能的地方提取,量化坐姿日本先进工业技术研究所(Japans Advanced Institute of Industrial Technology)的教授越水重 臣(Shigeomi Koshimizu)所做的研究就是关于一个人的坐姿。很少有人会认为一个人的坐姿能 表现什么信息,但是它真的可以。当一个人坐着的时候,他的身形、姿势和重量分布都可以量 化和数据化。越水重臣和他的工程师团队通过在汽车座椅下部安装总共360个压力传感器以测量 人对椅子施加压力的方式。把人体屁股特征转化成了数据,并且用从0256这个数值范围对其进 行量化,这样就会产生独属于每个乘坐者的精确数据资料。在这个实验中,这个系统能根据人体对座位的压力差异识别出乘坐者的身份,准确率高达98%。,17,数据,从最不可能的地方提取,这项技术可以作为汽车防盗系统安装在汽车上。有了这个系统之后,汽车就能识别出驾驶者是不是车主;如果不是,系统就会要求司机输入密码;如果司机无法准 确输入密码,汽车就会自动熄火。通过汇集这些数据,我们可以利用事故发生之 前的姿势变化情况,分析出坐姿和行驶安全之间的关系。这个系统同样可以在司机疲劳驾驶的 时候发出警示或者自动刹车。同时,这个系统不但可以发现车辆被盗,而且可以通过收集到的 数据识别出盗贼的身份。,18,数据,从最不可能的地方提取,苹果在2008年申请的“耳机、耳塞或耳麦的运动检测系统”专利。这种包含各种传感器的耳机可以检测各项生理指标,包括体温、心率和排汗水平。根据专利文件,健身检测系统被隐藏在耳机中,用户通常在运动时戴着耳机听音乐。通过将耳机放在耳朵里或附近,嵌入的运动传感器可以获得体温、排汗和心率方面的数据。除了基于皮肤的检测功能,耳机内部还可以集成加速度传感器,这样可以收集准确的运动数据。,19,数据,从最不可能的地方提取,20,2.决策思维:让数据驱动,2015年的3月15日,马云在德国的汉诺威IT博览会上的主题演讲:“一家互联网公司要想活得长久,必须找到一个方式让互联网经济和实体经济相结合,这个方式就是数据。”“未来的世界,我们将不再由石油驱动,而是由数据驱动。”,21,未来的世界由数据驱动,22,数据驱动的工业4.0,23,数据驱动的人生,24,3.要全部数据,不要抽样!,模型不再那么重要,让数据说话。在小数据时代,随机采样就是利用最少的数据获得更多的信息。而且采样分析的精确性随着采样随机性的增加而大幅度的增加,与样本数量的增加关系不大。在大数据时代,随着收集数据的便捷性,以及数据处理速度加快,我们可以分析到更多的数据,甚至是可以处理和某个特别现象相关的所有数据,而不是依赖于随机采样。,2011年发布的lytro相机就是一款具有“大数据”的相机。传统的相机只可以记录一束光的不同,而lytro相机可以收录这个光场所有的光,达到1100万束左右。具体生成什么样的照片则可以在拍摄之后再根据需要做决定。,25,利用所有数据,而不是一小部分采样数据,因为大数据是建立在掌握所有数据,至少是尽可能多的数据基础上,所以我们就可以正确的考察细节并进行新的分析。生活中真正有趣的事情经常隐匿在细节之中,而采样分析法却无法捕捉到这些细节。,26,利用所有数据,而不是一小部分采样数据,27,4.“关联”思维,强调数据之间的关联也很有用,而不去追求数据之间的因果关系。因果关系是最深刻的一类联系,但是我们很多时候并不能获得。,28,是什么,而不是为什么,相关关系通过识别有用的关联物来帮助我们分析一个现象,而不是通过提示其内部的动作机制。但相关关系没有绝对,只有可能。蛋挞与飓风用品沃尔玛是世界上最大的零售商,掌握了大量的零售数据。通过分析,沃尔玛发现,每当季节性飓风来临之前,不仅手电筒销售量增加了,而且蛋挞的销量也增加了。因此,当季节性暴风来临时,沃尔玛会把库存的蛋挞放在靠近飓风用品的位置,以方便顾客。观察的范围包括:每一个顾客购物清单以及消费额、购物篮中的物品、具体的购买时间甚至是购买当日的天气。,29,是什么,而不是为什么,在以前人们需要有了想法,然后再去收集数据去测试这个想法的可行性。而现在我们有了更多 的数据以及更好的工具之后,要找到相关关系就变得更快,更容易了。大多数据情况下,一旦我们完成了对大数据的相关分析,而又不再满足于仅仅知道“是什么”时,我们就会继续向更深层研究因果关系,找出背后的“为什么”。,提纲,大数据所带来的机遇和挑战,大数据的概念及技术,大数据时代的思维和变革,大数据在企业中的应用案例,30,大数据在企业中的应用之一 预测,31,32,大数据提升预测准确性,33,世界杯大数据预测火了百度,34,百度如何做到,通过爬虫等方法取得,35,百度预测,大数据在企业中的应用之二 营销:精准营销、整合营销、联合营销,36,37,38,电商巨头阿里大数据生态圈已经建立,39,零售业ZARA通过大数据创造独特竞争力,40,零售业ZARA通过大数据创造独特竞争力,41,传统制造企业耐克公司大数据战略,耐克凭借一种名为Nike+的新产品变身为大数据营销的创新公司。所谓Nike+,是一种以“Nike跑鞋或腕带+传感器”的产品,只要运动者穿着Nike+的跑鞋运动,iPod就可以存储并显示运动日期,时间、距离、热量消耗值等数据。用户上传数据到耐克社区,就能和同好分享讨论。凭借运动者上传的数据,耐克公司已经成功建立了全球最大的运动网上社区,超过1000万活跃的用户,每天不停地上传数据,耐克借此与消费者建立前所未有的牢固关系。,42,大数据能为Nike带来什么,Nike+:硬件、软件、社区的大平台,43,大数据带给Nike的是利润,大数据在企业中的应用之三 智慧城市,44,45,什么是智慧城市,由商业公司IBM在2010年提出概念:城市由六个核心系统组成:组织(人)、业务/政务、交通、通讯、水和能源。这些系统不是零散的,而是以一种协作方式相互衔接。而城市本身,则是由这些系统所组成的宏观系统。“智慧城市”的建设是个系统工程 将集成整个城市所涉及的社会综合管理与公共服务资源,通过物联化、互联化、智能化方式,促进各种城市功能彼此协调运作,以实现更全面的互联互通、更深入的智能化。无真正意义上的智慧城市范例可供参考 但智能化、便捷的生活方式是可以预想的构成要素。最终让每个普通市民的日常生活因此受惠,提升生活品质。,46,智慧城市的发展状况,我国智慧城市建设从2012年第一批试点开始,目前已有290个市县区列入智慧城市试点,还有一些没被列入试点的城市也开始建设智慧城市。据不完全统计,在我国已有500多个城市进行了智慧城市建设。银川虽然是第二批列入智慧城市试点的城市,但银川与中兴通讯合作,紧抓时代机遇,迅速落地并成为全国首个高标准、全功能的智慧城市样板。目前,智慧银川已经与乌镇互联网、贵阳大数据并列为我国信息领域里产政结合三大热点之一。,47,银川,截至目前,银川已部署智能快递柜、智能垃圾桶、免费WIFI、人脸识别门禁、大气与噪音监测系统、直饮水改造、智慧医疗系统等11项智能化设备配套的小区数量达到20个,预期到今年年底数量将增加到100个以上。同时,在智慧城市建设上,银川在智慧政务、智慧交通、智慧环保等10大重点领域13个模块建设上独显特色,形成了可复制、可推广的智慧城市“银川模式”。,48,智慧城市实例无锡大数据中心,49,智慧城市实例无锡大数据中心,50,智慧城市实例无锡大数据中心,大数据在企业中的应用之四 中国移动大数据,51,52,中国移动的大数据,53,内部的应用之精准营销,54,内部的应用之洞察客户,55,对外部的应用,景点舒适指数据预测根据位置信令来分析景区用户数量,帮助旅游景区了解游客来源、分布等信息 客流量分析帮助一些大的零售商分析顾客来源和各商铺、展位的人流情况。,56,北京市旅游局景点舒适度预报,提纲,大数据所带来的机遇和挑战,大数据的概念及技术,大数据时代的思维和变革,大数据在企业中的应用案例,57,58,大数据时代的机遇和挑战,59,大数据技术促进国家和社会发展,当前,我国正处在全面建成小康社会征程中,工业化、信息化、城镇化、农业现代化任务很重,建设下一代信息基础设施,发展现代信息技术产业体系,健全信息安全保障体系,推进信息网络技术广泛运用,是实现四化同步发展的保证。大数据分析对我们深刻领会世情和国情,把握规律,实现科学发展,做出科学决策具有重要意义,我们必须重新认识数据的重要价值。,60,大数据蓝海成为企业竞争的新焦点,大数据所能带来的巨大商业价值,被认为将引领一场足以与20世纪计算机革命匹敌的巨大变革。大数据正在对每个领域都造成影响,包括商业、经济等领域。大数据正在保重新的蓝海,催生新的经济增长点,正在成为企业竞争的新焦点。,61,大数据时代呼唤新型人才,盖特纳咨询公司预测大数据将为全球带来440万个IT新岗位和上千万个非IT岗位。麦肯锡公司预测美国到2018年需要深度数据分析人才44万-49万,缺口14万-19万;需要既熟悉本单位需求又了解大数据技术与应用的管理者150万,这方面的人才缺口更大。中国是人才大国,但能理解与应用大数据创新人才更是稀缺资源。,大数据时代的新的就业岗位:大数据分析师数据管理专家大数据算法工程师数据产品经理等,62,挑战一:业务部门没有清晰的大数据需求,很多企业业务部门不了解大数据,也不了解大数据的应用场景和价值,因此难以提出大数据的准确需求。由于业务部门需求不清晰,大数据部门又是非盈利部门,企业决策层担心投入比较多的成本,导致了很多企业在搭建大数据部门时犹豫不决,或者很多企业都处于观望尝试的态度,从根本上影响了企业在大数据方向的发展,也阻碍了企业积累和挖掘自身的数据资产,甚至由于数据没有应用场景,删除很多有价值历史数据,导致企业数据资产流失。因此,这方面需要大数据从业者和专家一起,推动和分享大数据应用场景,让更多的业务人员了解大数据的价值。,63,挑战二:企业内部数据孤岛严重,企业启动大数据最重要的挑战是数据的碎片化。在很多企业中尤其是大型的企业,数据常常散落在不同部门,而且这些数据存在不同的数据仓库中,不同部门的数据技术也有可能不一样,这导致企业内部自己的数据都没法打通。如果不打通这些数据,大数据的价值则非常难挖掘。大数据需要不同数据的关联和整合才能更好的发挥理解客户和理解业务的优势。如何将不同部门的数据打通,并且实现技术和工具共享,才能更好的发挥企业大数据的价值。,64,挑战三:数据可用性低,数据质量差,很多中型以及大型企业,每时每刻也都在产生大量的数据,但很多企业在大数据的预处理阶段很不重视,导致数据处理很不规范。大数据预处理阶段需要抽取数据把数据转化为方便处理的数据类型,对数据进行清洗和去噪,以提取有效的数据等操作。甚至很多企业在数据的上报就出现很多不规范不合理的情况。以上种种原因,导致企业的数据的可用性差,数据质量差,数据不准确。而大数据的意义不仅仅是要收集规模庞大的数据信息,还有对收集到的数据进行很好的预处理处理,才有可能让数据分析和数据挖掘人员从可用性高的大数据中提取有价值的信息。Sybase的数据表明,高质量的数据的数据应用可以显著提升企业的商业表现,数据可用性提高10%,企业的业绩至少提升在10%以上。,65,挑战四:数据安全,网络化生活使得犯罪分子更容易获得关于人的信息,也有了更多不易被追踪和防范的犯罪手段,可能会出现更高明的骗局。如何保证用户的信息安全成为大数据时代非常重要的课题。在线数据越来越多,黑客犯罪的动机比以往都来的强烈,一些知名网站密码泄露、系统漏洞导致用户资料被盗等个人敏感信息泄露事件已经警醒我们,要加强大数据网络安全的建设。另外,大数据的不断增加,对数据存储的物理安全性要求会越来越高,从而对数据的多副本与容灾机制也提出更高的要求。目前很多传统企业的数据安全令人担忧。,66,挑战五:大数据人才缺乏,大数据建设的每个环节都需要依靠专业人员完成,因此,必须培养和造就一支掌握大数据技术、懂管理、有大数据应用经验的大数据建设专业队伍。目前大数据相关人才的欠缺将阻碍大数据市场发展。据Gartner预测,到2015年,全球将新增440万个与大数据相关的工作岗位,且会有25%的组织设立首席数据官职位。大数据的相关职位需要的是复合型人才,能够对数学、统计学、数据分析、机器学习和自然语言处理等多方面知识综合掌控。未来,大数据将会出现约100万的人才缺口,在各个行业大数据中高端人才都会成为最炙手可热的人才,涵盖了大数据的数据开发工程师、大数据分析师、数据架构师、大数据后台开发工程师、算法工程师等多个方向。因此需要高校和企业共同努力去培养和挖掘。目前最大的问题是很多高校缺乏大数据,所以拥有大数据的企业应该与学校联合培养人才。,67,大数据技术的运用仍有困难,主要体现在大数据挖掘的四个环节中:,68,大数据给信息安全带来新挑战,69,数据越用越值钱谁拥有数据,谁就是王者但没有大数据分析师,王者也要摆地摊,70,71,大趋势 Big Data,*,国内大数据,马云对未来的预测,是建立在对用户行文分析的基础上。“2008年初,阿里巴巴平台上整个买家询盘数急剧下滑,欧美对中国采购在下滑。海关是卖了货,出去以后再获得数据;而我们提前半年时间从询盘上推断出世界贸易发生变化了。”腾讯在天津投资建立亚洲最大的数据中心;百度也在投资建立大数据处理中心;,*,2012年3月,美国奥巴马政府宣布投资2亿美元启动“大数据研发计划”,旨在提高和改进从海量和复杂数据中获取知识的能力,加速美国在科学和工程领域发明的步伐,增强国家安全。这是继1993年美国宣布“信息高速公路”计划后的又一次重大科技发展部署,由美国国家科学基金会、能源部等6个联邦部门共同投资。,美国的大数据战略,*,目录,*,21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。,“大数据”的诞生:半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息爆炸的学科如天文学和基因学,创造出了“大数据”这个概念*。如今,这个概念几乎应用到了所有人类智力与发展的领域中。,大数据时代的背景,*,想驾驭这庞大的数据,我们必须了解大数据的特征。,地球上至今总共的数据量:在2006 年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据;在2011 年,这个数字达到了1.8ZB。而有市场研究机构预测:到2020 年,整个世界的数据总量将会增长44 倍,达到35.2ZB(1ZB=10 亿TB)!,1PB=250字节1EB=260字节1ZB=270字节,数据大爆炸,*,大数据的4V特征,体量Volume,多样性Variety,价值密度Value,速度Velocity,非结构化数据的超大规模和增长总数据量的8090%比结构化数据增长快10倍到50倍是传统数据仓库的10倍到50倍,大数据的异构和多样性很多不同形式(文本、图像、视频、机器数据)无模式或者模式不明显不连贯的语法或句义,大量的不相关信息对未来趋势与模式的可预测分析深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等),实时分析而非批量式分析数据输入、处理与丢弃立竿见影而非事后见效,*,目录,*,1、密不可分的大数据与云计算,商业模式驱动,应用需求驱动,云计算本身也是大数据的一种业务模式,大数据是落地的云,云计算的模式是业务模式,本质是数据处理技术。数据是资产,云为数据资产提供存储、访问和计算。当前云计算更偏重海量存储和计算,以及提供的云服务,运行云应用,但是缺乏盘活数据资产的能力,挖掘价值性信息和预测性分析,为国家、企业、个人提供决策和服务,是大数据核心议题,也是云计算的最终方向。,*,2、大数据不仅仅是“大”,多大?至少PB 级,比大更重要的是数据的复杂性,有时甚至大数据中的小数据如一条微博就具有颠覆性的价值,*,4、大数据的应用不仅仅是精准营销,通过用户行为分析实现精准营销是大数据的典型应用,但是大数据在各行各业特别是公共服务领域具有广阔的应用前景,消费行业,金融服务,食品安全,医疗卫生,军事,交通环保,电子商务,气象,*,5、管理大数据“易”理解大数据“难”,虽然大数据是一个重大问题,真正的问题是让大数据更有意义目前大数据管理多从架构和并行等方面考虑,解决高并发数据存取的性能要求及数据存储的横向扩展,但对非结构化数据的内容理解仍缺乏实质性的突破和进展,这是实现大数据资源化、知识化、普适化的核心非结构化海量信息的智能化处理:自然语言理解、多媒体内容理解、机器学习等,*,目录,*,分析技术:数据处理:自然语言处理技术统计和分析:A/B test;top N排行榜;地域占比;文本情感分析数据挖掘:关联规则分析;分类;聚类模型预测:预测模型;机器学习;建模仿真大数据技术:数据采集:ETL工具数据存取:关系数据库;NoSQL;SQL等基础架构支持:云存储;分布式文件系统等计算结果展现:云计算;标签云;关系图等,存储结构化数据:海量数据的查询、统计、更新等操作效率低非结构化数据图片、视频、word、pdf、ppt等文件存储不利于检索、查询和存储半结构化数据转换为结构化存储按照非结构化存储,解决方案:Hadoop(MapReduce技术)流计算(twitter的storm和yahoo!的S4),一些相关技术,*,行业拓展者,打造大数据行业基石:,IBM:IBM大数据提供的服务包括数据分析,文本分析,蓝色云杉(混搭供电合作的网络平台);业务事件处理;IBM Mashup Center的计量,监测,和商业化服务(MMMS)IBM的大数据产品组合中的最新系列产品的InfoSphere bigInsights,基于Apache Hadoop。该产品组合包括:打包的Apache Hadoop的软件和服务,代号是bigInsights核心,用于开始大数据分析软件被称为bigsheet,软件目的是帮助从大量数据中轻松、简单、直观的提取、批注相关信息为金融,风险管理,媒体和娱乐等行业量身定做的行业解决方案微软:2011年1月与惠普(具体而言是HP数据库综合应用部门)合作目标是开发了一系列能够提升生产力和提高决策速度的设备。EMC:EMC 斩获了纽交所和Nasdaq;大数据解决方案已包括40多个产品。Oracle:Oracle大数据机与Oracle Exalogic中间件云服务器、Oracle Exadata数据库云服务器以及Oracle Exalytics商务智能云服务器一起组成了甲骨文最广泛、高度集成化系统产品组合。,大数据的应用 企业在投入,*,政府、金融、电信等行业投资建立大数据的处理分析手段,实现综合治理、业务开拓等目标;应用到制造等更多行业。,更多行业的应用,*,数据的再利用:由于在信息价值链中的特殊位置,有些公司可能会收集到大量的数据,但他们并不急需使用也不擅长再次利用这些数据。例如,移动电话运营商手机用户的位置信息来传输电话信号,这对以他们来说,数据只有狭窄的技术用途。但当它被一些发布个性化位置广告服务和促销活动的公司再次利用时,则变得更有价值。,大数据价值链的3大构成:数据本身、技能与思维 其中三者兼具的又谷歌公司,谷歌在刚开始收集数据的时候就已经有多次使用数据的想法。比方说,它的街景采集车手机全球定位系统数据不光是为了创建谷歌地图,也是为了制成全自动汽车以及谷歌眼镜等与实景交汇的产品。,未来,企业会依靠洞悉数据中的信息更加了解自己,也更加了解客户。,大数据时代,传统行业最终都会转变为大数据行业,无论是金融服务业、医药还是制造业。,大数据的应用 未来,改变一切,具体案例,难点分析,移动用户上网记录集中查询与分析支撑系统,什么是hadoop,开源Apache 项目,灵感来源于Google的MapReduce白皮书和Google文件系(GFS),Yahoo完成了绝大部分初始设计和开发Hadoop 核心组件包括:-分布式文件系统-Map/Reduce 分布式计算用Java编写运行平台:Linux,Mac OS/X,Solaris,Windows普通的X86硬件平台,为什么hadoop很重要,非结构化数据暴增:估计未来5年,企业的数据将增长650%,其中80%都是非结构化数据比如FACEBOOK每天收集100TB的数据,Twitter会有每天产生3500亿的tweets非结构化的数据同样蕴藏巨大价值需要新方法利用所有数据进行业务分析 Apache Hadoop作为一个分析存储大量数据的关键数据平台出现,hadoop与大数据,Hadoop是致力于“大数据”处理的最重要平台之一 能够轻松扩展到PB级别的数据存储,处理规模 带有高度容错能力的并行处理架构基于普通的X86平台硬件架构,硬件成本低廉 用内置格式存储/处理数据基于开源项目,拥有当量的代码来源,并且传统厂商也日益重视对其的支持,它已经成为重要的并行处理架构标准之一,英特尔企业级Hadoop堆栈,我现在做的工作Nutch,定义Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。,nutch首页,搜索引擎原理,一、搜索引擎原理,用户,用户,用户,检索入口google百度,结果排序,网页索引,网页分析,网页抓取,互联网,搜索引擎技术框架图,Nutch工作原理,谢谢,