欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    暨南大学并行计算实验室MapReduce研究现状.ppt

    • 资源ID:6300111       资源大小:256KB        全文页数:18页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    暨南大学并行计算实验室MapReduce研究现状.ppt

    暨南大学并行计算实验室MapReduce研究现状,专 业:计算机软件与理论姓 名:周敏 丁光华指导教师:周继鹏 教授,摘要,MapReduce研究 调试、监控等优化、扩展等常用APIHadoop改造数据挖掘项目RedpollCanopy,k-meansNaive bayes,SVM,调试,标准输出,标准出错Web显示(50030,50060,50070)NameNode,JobTracker,DataNode,TaskTracker日志本地重现:Local RunnerDistributedCache中放入调试代码,Profiling,目的:查性能瓶颈,内存泄漏,线程死锁等工具:jmap,jstat,hprof,jconsole,jprofiler mat,jstack对JobTracker的Profile对各slave节点TaskTracker的Profile对各slave节点某Child进程的Profile(可能存在单点执行速度过慢),监控,目的:监控集群或单个节点I/O,内存及CPU工具:Ganglia,调优点(1),I/OShuffle,调优点(2),数据压缩推测性执行(同时执行同一Task,杀死运行慢的)同一节点的Child重用jvm重写Partitioner,使分布到各Reducer的数据均匀设置堆空间大小,常用API,Mapper,ReducerWritable,ComparableWritableInputFormat,OutputFormatPartitionerComparatorDistributedCacheStreaming(bash/python),Hadoop改造,JobTracker与作业调度耦合性太强JobHistory应独立为一个jvm进程,逻辑不应与JobTracker耦合太强在HDFS之上整合MPI,统一作业调度Shuffle过程只需一次I/O单块磁盘失效导致整个节点失效问题(改DFSClient),Hadoop改造,文件系统兼容posix使Map的key输出不排序,只分区NameNode单点故障问题RPC支持大数据(如文件)传输集群资源分配权限管理,大规模数据挖掘:Redpoll,文本数据挖掘分布式分词分布式向量空间模型距离度量语料搜狗新闻20 news groupwikipedia,前提:假定一个属性值对分类的影响独立于其他属性的值。(类条件独立)朴素贝叶斯分类工作过程每个数据样本用一个n维特征向量 表示,分别描述对n个属性 样本的n个度量假设有m个类。给定一个未知的数据样本X,分类法将预测具有最高后验概率(条件X下)的类。即是找最大化的。根据贝叶斯定理有,朴素贝叶斯分类,P(X)对所有类为常数,最大化,对 的考虑分析:等概率,或类条件独立的朴素假定:,(k=1,2,n)可以由训练样本估值 是分类属性,则根据样本估值 是连续值属性,则通常假定其服从高斯分布,因而,朴素贝叶斯分类(续),Canopy,大容量,高维数据集聚类使用两步聚类不同的距离度量节省计算时间适用范围较广K-meansEMGAC,大规模支持向量机,解的稀疏性及问题的凸性将大规模的原问题分解成小规模的子问题,迭代求解子问题,直到收敛至原问题的解.选块算法分解算法序列最小最优化法(sequential minimal optimization,SMO),并行实现,Thinking in MapReduce,B,A,D,A,A,C,B,C,B,C,D,Group,Co-group,Function,Stream Flow,Filter,Filter,Aggregate,谢谢!,

    注意事项

    本文(暨南大学并行计算实验室MapReduce研究现状.ppt)为本站会员(小飞机)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开