hadoop实战培训-传智播客.ppt
《hadoop实战培训-传智播客.ppt》由会员分享,可在线阅读,更多相关《hadoop实战培训-传智播客.ppt(56页珍藏版)》请在三一办公上搜索。
1、,高级软件人才实作培训专家!,Hahoop 培训,讲师:刘刚,北京传智播客教育,2,海量数据处理平台架构,一般网站把用户的访问行为记录以apach 日志的形式记录下来了,这些日志中包含了下面一些 关键字段:client_ip,user_id,access_time,url,referer,status,page_size,agent因为需要统一对数据进行离线计算,所以常常把它们全部移到同一个地方。简单算了一下:(1)网站请求数:1kw/天(2)每天日志大小:450Byte/行*1kw=4.2G,(3)日志存储周期:2 年 一天产生4.5G 的日志,2 年需要4.2G*2*365=3.0T解决方
2、案:为了方便系统命令查看日志,不压缩,总共需要3.0T 的空间,刚好有一些2U 的服务器,每台共1T 的磁盘空间。为了避免系统盘坏掉影响服务器使用,对系统盘做了raid1。为了避免其他存放数据的盘坏掉导致数据无法恢复,对剩下的盘做了raid5。所有的数据都汇聚到这几台LogBackup 服务器上来了。,北京传智播客教育,3,有了LogBackup 服务器,离线统计就可以全部在这些服务器上进行了。在这套架构上,用wc、grep、sort、uniq、awk、sed 等系统命令,完成了很多的统计需求,比如统计访问频率较高的client_ip,某个新上线的的页面的referer 主要是哪些网站。当业务
3、的迅猛发展,网站流量爆发增长,产品经理如果想从中获取更多的用户特征和用户信息,就需要我们这些数据分析人员从不同的日志中找到令他们满意的答案。如果(1)日志总行数:10 亿/天(2)每天日志大小:450Byte/行*10 亿=420G,(3)日志种类:5 种,北京传智播客教育,Hadoop能解决哪些问题,海量数据需要及时分析和处理。海量数据需要深入分析和挖掘。数据需要长期保存问题:磁盘IO成为一种瓶颈,而非CPU资源。网络带宽是一种稀缺资源硬件故障成为影响稳定的一大因素,北京传智播客教育,Hadoop在国内的情景,奇虎360:Hadoop存储软件管家中软件,使用CDN技术将用户请求引到最近的Ha
4、doop集群并进行下载京东、百度:存储、分析日志、数据挖掘和机器学习(主要是推荐系统)广告类公司:存储日志,通过协调过滤算法为客户推荐广告Yahoo:垃圾邮件过滤华为:云计算平台Facebook:日志存储,实时分析某公安部项目:网民QQ聊天记录与关联人调查系统,使用Hbase实现某学校:学生上网与社会行为分析,使用hadoop淘宝、阿里:国内使用Hadoop最深入的公司,整个Taobao和阿里都是数据驱动的,北京传智播客教育,Hadoop开发人员市场需求和待遇,北京传智播客教育,Hadoop在国内的人才储备,北京传智播客教育,Hadoop介绍,1)作者:Doug Cutting2)用Java编
5、写的开源系统,能够安排在大规模的计算平台上,从而长进计算效率。3)Nutch搜索引擎里面的一个模块。4)受Google三篇论文的启发-MapReduce GFS Bigtable5)google hadoop mapreduce mapreduce GFS HDFS Bigtable Hbase,北京传智播客教育,Hadoop生态系统介绍,Hbase 1)Nosql数据库,Key-Value存储 2)最大化利用内存HDFS 1)hadoop distribute file system分布式文件系统 2)最大化利用磁盘MapReduce 1)编程模型,主要用来做数据的分析 2)最大化利用CPU
6、,北京传智播客教育,HDFS篇,北京传智播客教育,HDFS设计原则,文件以块(block)方式存储每个块带下远比多数文件系统来的大(预设64M)通过副本机制提高可靠度和读取吞吐量每个区块至少分到三台DataNode上单一 master(NameNode)来协调存储元数据(metadata)客户端对文件没有缓存机制(No data caching),北京传智播客教育,HDFS系统结构,北京传智播客教育,NameNode(NN),NameNode主要功能提供名称查询服务,它是一个jetty服务器NameNode保存metadate信息包括文件owership和permissions文件包含哪些块B
7、lock保存在哪个DataNode(由DataNode启动时上报)NameNode的metadate信息在启动后会加载到内存metadata存储到磁盘文件名为”fsimage”Block的位置信息不会保存到fsimage,NameNode,块存储结构,metadate物理存储结构,DataNode(DN),保存Block启动DN线程的时候会向NN汇报block信息通过向NN发送心跳保持与其联系(3秒一次),如果NN 10分钟没有收到DN的心跳,则认为其已经lost,并copy其上的block到其它DN,Block的副本放置策略,第一个副本:放置在上传文件的DN;如果是集群外提交,则随机挑选一台
8、磁盘不太满,CPU不太忙的节点第二个副本:放置在于第一个副本不同的机架的节点上第三个副本:与第二个副本相同集群的节点更多副本:随机节点,北京传智播客教育,再说Block,设置一个Block 64MB,如果上传文件小于该值,仍然会占用一个Block的命名空间(NameNode metadata),但是物理存储上不会占用64MB的空间Block大小和副本数由Client端上传文件到HDFS时设置,其中副本数可以变更,Block是不可以再上传后变更的,北京传智播客教育,数据损坏(corruption)处理,当DN读取block的时候,它会计算checksum如果计算后的checksum,与block
9、创建时值不一样,说明该block已经损坏。client读取其它DN上的block;NN标记该块已经损坏,然后复制block达到预期设置的文件备份数DN在其文件创建后三周验证其checksum,19,HDFS文件权限,与Linux文件权限类似r:read;w:write;x:execute,权限x对于文件忽略,对于文件夹表示是否允许访问其内容如果Linux系统用户zhangsan使用hadoop命令创建一个文件,那么这个文件在HDFS中owner就是zhangsanHDFS的权限目的:阻止好人错错事,而不是阻止坏人做坏事。HDFS相信,你告诉我你是谁,我就认为你是谁,HDFS文件读取,HDFS文
10、件写入,北京传智播客教育,HDFS文件存储,两个文件,一个文件156M,一个文件128在HDFS里面怎么存储?-Block为64MB-rapliction默认拷贝3份,北京传智播客教育,HDFS文件存储结构,北京传智播客教育,HDFS开发常用命令,创建一个文件夹?上传一个文件?删除一个文件和文件夹?查看一个文件夹里面有哪些文件?查看某个文件的内容?,北京传智播客教育,Hadoop管理员常用命令,hadoop job list#列出正在运行的Jobhadoop job kill#kill jobhadoop fsck/#检查HDFS块状态,是否损坏hadoop fsck/-delete#检查HD
11、FS块状态,删除损坏块hadoop dfsadmin report#检查HDFS状态,包括DN信息hadoop dfsadmin safemode enter|leavehadoop distcp hdfs:/a:8020/xxx hdfs:/b:8020/#并行copy./bin/start-balancer.sh#平衡集群文件,北京传智播客教育,HDFS API详解,static FileSystem get(Configuration conf)operator()/step1 得到Configuration对象/step2 得到FileSystem对象/step3 进行文件操作,北京传
12、智播客教育,用Java对HDFS编程,文件操作1.1上传本地文件到hadoop fs1.2 在hadoop fs中新建文件,并写入1.3 删除hadoop fs上的文件1.4读取文件1.5 文件修改时间2.目录操作2.1 在hadoop fs上创建目录2.2 删除目录2.3 读取某个目录下的所有文件2.4遍历hdfshdfs信息查找某个文件在HDFS集群的位置获取HDFS集群上所有节点名称信息,北京传智播客教育,mapreduce篇,北京传智播客教育,开发hadoop依赖的jar和自带的example,到 下载,目前最新版为。下载完后解压文件,y有hadoop-0.20.2-core.jar,
13、hadoop-0.20.2-examples.jar,hadoop-0.20.2-core.jar:hadoop的核心类库Hadoop所依赖的jar:hadoop所依赖的jar在lib目录下面。Hadoop 自带的一些案例分析:是自带的一些案例。介绍如下:1)aggregatewordcount计算输入文件中文字个数的基于聚合的MapReduce程序。2)aggregatewordhist生成输入文件中文字个数的统计图的基于聚合的MapReduce程序。3)grep计算输入文件中匹配正则表达式的文字个数的MapReduce程序。4)join合并排序的平均分割的数据集的作业。5)pentomin
14、o解决五格拼版问题的分块分层的MapReduce程序。,北京传智播客教育,Hadoop自带的examples.jar介绍,6)pi使用蒙地卡罗法计算PI的MapReduce程序。7)Randomtextwriter在一个节点上写10G随机文本的MapReduce程序。8)randomwriter在每个节点上写10G随机数据的MapReduce程序。9)sleep在每个Map和Reduce作业中休憩的程序。10)sort排序随机写入器生成的数据的MapReduce程序。11)sudoku一个九宫格游戏的解决方案。12)wordcount在输入文件中统计文字个数的统计器。,实例,写MapReduc
15、e程序的步骤:1.把问题转化为MapReduce模型2.设置运行的参数3.写map类 4.写reduce类例子:统计单词个数,My name is liu gangWhat is your name,My 1name 2is 2What 1your 1liu 1gang 1,北京传智播客教育,MapReduce模型,1.Map端一行行读文件,程序转化为中间Key/Value.My name is liu gang-My 1,name 1,is 1,liu 1,gang 1 What is your name-What 1,is 1,your 1 name 12.Reduce端相同的key肯定会
16、在一起。经过Reduce方法处理后,形成最终的key/Value.name 1,name 1-name 2;,北京传智播客教育,运行步骤,1)打成jar包。2)创建一个word.txt文件3)把word.txt文件传到HDFS上面 hadoop fs copyFromLocal 4)执行hadoop jar 5)查看执行结果 hadoop fs text/path,MapReduce执行流程,35,MapReduce基本流程,JobTracker(JT)和TaskTracker(TT)简介,再论JobTracker(JT)和TaskTracker(TT),JobTracker:协作作业的运行t
17、askTracker:运行作业划分后的任务,Mapreduce原理,1)一个文件file.txt2)存储file.txt文件3)统计file.txt文件里面”Refund”个数,JobTracker失败,1)JobTracker失败在所有的失败中是最严重的一种。2)hadoop没有处理jobtracker失败的机制。-它是一个单点故障。3)在未来的新版本中可能可以运行多个JobTracker。4)可以使用ZooKeeper来协作JobTracker。,TaskTracker失败,1)一个TaskTracker由于崩溃或运行过于缓慢而失败,它会向JobTracker发送“心跳”。2)如果有未完成
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- hadoop 实战 培训 传智播客
链接地址:https://www.31ppt.com/p-5432860.html