Storm实时流处理框架PPT演讲李乾DHU).ppt
《Storm实时流处理框架PPT演讲李乾DHU).ppt》由会员分享,可在线阅读,更多相关《Storm实时流处理框架PPT演讲李乾DHU).ppt(47页珍藏版)》请在三一办公上搜索。
1、实时流处理框架Storm,演讲:李乾文,2013年11月5日,目录,Storm介绍Storm环境配置Storm程序流程Storm总结及问题,目录,Storm介绍Storm环境配置Storm程序流程Storm总结及问题,实时流计算背景,参考:1.http:/storm入门教程 第一章 前言2.http:/流处理框架Storm简介,RPC(RemoteProcedureCallProtocol)远程过程调用协议,随着互联网的更进一步发展,信息浏览、搜索、关系交互传递型,以及电子商务、互联网旅游生活产品等将生活中的流通环节在线化。对于实时性的要求进一步提升,而信息的交互和沟通正在从点对点往信息链甚至
2、信息网的方向发展,这样必然带来数据在各个维度的交叉关联,数据爆炸已不可避免。因此流式处理和NoSQL产品应运而生,分别解决实时框架和数据大规模存储计算的问题。流式处理可以用于3种不同场景:事件流、持续计算以及分布式RPC。,数据分析系统组成,参考:1.http:/流式计算系统,数据分析系统整体组成示意图,如HDFS,流处理与批处理,参考:1.实时处理方案架构(作者-落枫).pdf,Storm 关注的是数据多次处理一次写入,而 hadoop 关注的是数据一次写入,多次查询使用。Storm系统运行起来后是持续不断的,而 hadoop往往只是在业务需要时调用数据。,Storm和Hadoop角色对比,
3、参考:1.http:/流式计算系统,Storm组件,参考:1.http:/storm简介,Topology:storm中运行的一个实时应用程序.Nimbus:负责资源分配和任务调度.Supervisor:负责接受nimbus分配的任务,启动和停止属于自己管理的worker进程.Worker:运行具体处理组件逻辑的进程.Task:worker中每一个spout/bolt的线程称为一个task.Spout:在一个topology中产生源数据流的组件.Bolt:在一个topology中接受数据然后执行处理的组件.Tuple:一次消息传递的基本单元.Stream grouping:消息的分组方法,St
4、orm组件,参考:1.百度图片搜索,Storm组件,参考:1.http:/Storm入门教程 第二章 构建Topology,Storm特点,参考:1.百度百科2.http:/storm入门教程 第一章 前言3.http:/Storm安装部署步骤,可扩展 计算任务可在多个线程、进程和服务器之间并行进行,支持灵活的水平扩展高可靠 保证每条消息都能被完全处理高容错性 nimbus、supervisor都是无状态的,可以用kill-9来杀死Nimbus和Supervisor进程,然后再重启它们,任务照常进行.当worker失败后,supervisor会尝试在本机重启它支持多种编程语言 除了用java实
5、现spout和bolt,还可用其他语言支持本地模式 可在本地模拟一个Storm集群功能、进行本地测试高效 用ZeroMQ作为底层消息队列,保证消息能快速被处理,目录,Storm介绍Storm环境配置Storm程序实例Storm总结及问题,依赖软件,Storm的依赖软件有Python、Zeromq、Jzmq、Zookeeper。此外,系统应安装有Java、GCC、G+编译环境。,参考:1.http:/Twitter Storm 安装实战2.http:/centos 怎么安装 g+,安装Python,#wget http:/www.python.org/ftp/python/2.7.2/Pytho
6、n-2.7.2.tgz#tar zxvf Python-2.7.2.tgz#cd Python-2.7.2#./configure#make#make install#vi/etc/ld.so.conf 追加/usr/local/lib/#sudo ldconfig这样的话,Python2.7.2就安装完毕了。,参考:1.http:/Twitter Storm 安装实战2.http:/linux ld.so.conf 和 pkgconf3.http:/linux下python安装,安装Zeromq,jzmq的安装是依赖zeromq的,所以应该先装zeromq,再装jzmq。#wget http
7、:/download.zeromq.org/zeromq-2.1.7.tar.gz#tar zxf zeromq-2.1.7.tar.gz#cd zeromq-2.1.7#./configure#make#make install#sudo ldconfig 2)安装jzmq#yum install git(CentOS)&apt-get install git(Ubuntu)#git clone git:/cd jzmq#./autogen.sh#./configure#make#make install在过程中很可能会遇到依赖库相关问题,详见参考1,参考:1.http:/Twitter S
8、torm 安装实战2.http:/Storm集群安装部署步骤【详细版】,可到https:/,SSH免密码配置,参考:1.http:/Hadoop集群(第5期副刊)_JDK和SSH无密码配置,为使各台计算机间Zookeeper同步数据、应配置SSH免密码登录1 确认本机sshd的配置文件(root)$vi/etc/ssh/sshd_config找到以下内容,并去掉注释符#RSAAuthentication yesPubkeyAuthentication yesAuthorizedKeysFile.ssh/authorized_keys2 如果修改了配置文件需要重启sshd服务(root)$vi/
9、sbin/service sshd restart3 ssh登陆系统 后执行测试命令$ssh localhost回车会提示你输入密码,因为此时我们还没有生成证书。4 生成证书公私钥$ssh-keygen-t dsa-P-f/.ssh/id_dsa$cat/.ssh/id_dsa.pub/.ssh/authorized_keys,SSH免密码配置,参考:1.http:/Hadoop集群(第5期副刊)_JDK和SSH无密码配置,5 拷贝本地生产的key到远程服务器端$cat/.ssh/id_rsa.pub|ssh 远程用户名远程服务器ip cat-/.ssh/authorized_keys6 测试
10、登陆 ssh user远程ip7 如果登陆不成功,需要修改远程服务器上的authorized_keys文件权限$chmod 600/.ssh/authorized_keys,安装Zookeeper及单机配置,#wget http:/ftp.meisei-u.ac.jp/mirror/apache/dist/zookeeper/zookeeper-3.4.5/zookeeper-3.4.5.tar.gz#tar-zxf zookeeper-3.4.5.tar.gz#cp-R zookeeper-3.4.5/usr/local/#ln-s/usr/local/zookeeper-3.4.5/usr
11、/local/zookeeper#vi./bashrc(设置ZOOKEEPER_HOME和ZOOKEEPER_HOME/bin环境变量,vim/etc/profile&source/etc/profile)追加:export ZOOKEEPER_HOME=/path/to/zookeeper export PATH=$PATH:$ZOOKEEPER_HOME/bin#cd/usr/local/zookeeper/conf/#cp zoo_sample.cfg zoo.cfg(用zoo_sample.cfg制作$ZOOKEEPER_HOME/conf/zoo.cfg)zookeeper的单机安装
12、完成。启动服务 bin/zkServer.sh start用bin/zkServer.sh status 查看会显示standalone启动客户端测试bin/zkCli.sh-server 127.0.0.1:2181,参考:1.http:/Twitter Storm 安装实战2.http:/linux下zookeeper安装与测试,安装Zookeeper及单机配置,zoo_sample.cfg内容:,Zookeeper集群配置,参考:1.http:/Twitter Storm 安装实战2.http:/linux下zookeeper安装与测试3.http:/ZooKeeper系列之十:ZooK
13、eeper的一致性保证及Leader选举,在单机配置文件zoo.cfg末尾加上server.1=192.168.61.130:2888:3888server.2=192.168.61.134:2888:3888server.3=192.168.61.135:2888:3888,格式为:server.id=host:port:port id是为每个Zookeeper节点的编号同时需要在 dataDir目录下面新建文件myid,内容为$id数值.echo$id$dataDir/myid第一个port是用于follower连接leader的端口,第二个port是用于leader选举的端口.当集群中的
14、leader宕机后其中一台follower的模式转变成leader.所以Storm集群中的Nimbus主机不一定是leader.,关于server.id=host:port:port,server.x=hostname:nnnnn:nnnnn,etcservers making up the ZooKeeper ensemble.When the server starts up,it determines which server it is by looking for the file myid in the data directory.That file contains the s
15、erver number,in ASCII,and it should match x in server.x in the left hand side of this setting.,http:/zookeeper.apache.org/doc/r3.4.3/zookeeperAdmin.html#sc_CrossMachineRequirements,官方解释,安装Storm及单机配置,#wget https:/unzip storm-0.8.1.zip#cp-R storm-0.8.1/usr/local/vim/.bashrc 追加export STORM_HOME=/usr/lo
16、cal/storm-0.8.1 export PATH=$PATH:$STORM_HOME/bin到此为止单机版的Storm就安装完毕了。,参考:1.http:/Twitter Storm 安装实战2.http:/Storm集群安装部署步骤【详细版】,Storm下载地址http:/storm-,Storm集群配置,配置文件:storm.yaml#These MUST be filled in for a storm configuration storm.zookeeper.servers:-192.168.61.130-192.168.61.134-192.168.61.135 nimbus
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Storm 实时 处理 框架 PPT 演讲 DHU

链接地址:https://www.31ppt.com/p-2946358.html