第四章大数据挖掘工具ppt课件.pptx
《第四章大数据挖掘工具ppt课件.pptx》由会员分享,可在线阅读,更多相关《第四章大数据挖掘工具ppt课件.pptx(45页珍藏版)》请在三一办公上搜索。
1、,全国高校标准教材云计算姊妹篇,剖析大数据核心技术和实战应用,大数据,刘鹏主编张燕张重生张志立 副主编,BIG DATA,刘 鹏,全国高校标准教材云计算姊妹篇,剖析大数据核心技术和实战应用,习题,of,44,3,4.1 Mahout,大数据配套PPT课件,Mahout 简介,定义:Apache Mahout 是一个由Java语言实现的开源的可扩展的机器学习算法库,2008年之前,2010年以后,Apache Lucene开源搜索引擎的子项目 实现Lucene框架中的聚类以及分类算法 吸纳协调过滤项目Taste成为独立子项目,发展历史,成为Apache顶级项目 实现聚类、分类和协同过滤等机器学习
2、算法 既可以单机运行也可在Hadoop平台上运行,目标:机器学习平台,提供类似R的DSL以支持线性代数运算(如分布式向量计算)、大数据统计等基本功能,驱象人,of,44,4,4.1 Mahout,大数据配套PPT课件,Mahout在各平台支持的机器学习算法,of,44,5,4.1 Mahout,大数据配套PPT课件,1.下载Mahout安装包,2. 解压并安装Mahout,3. 启动并验证Mahout,安装环境:Linux操作系统(CentOS 6.5 )、 Hadoop平台(Hadoop 2.5.1),镜像网站http:/,of,44,6,4.1.1 Mahout 安装,4.1 Mahout
3、,大数据配套PPT课件,同一个簇中对象具有高相似度,无监督学习算法,Canopy、k-means、模糊k-means、流k-means和谱聚类等都是聚类算法,本节重点,of,44,7,4.1.2 聚类算法,4.1 Mahout,大数据配套PPT课件,基于Mahout命令运行k-means算法,12个二维数据,1 101 112 102 1110 110 2,运行聚类算法,(1.5,10.5)(10.5, 1.5 )(10.5,10.5 ),聚类中心坐标,以上述3个坐标为中心,半径为(0.5,0.5),生成3个聚类,每个聚类4个成员,3次迭代,of,44,8,4.1 Mahout,大数据配套PP
4、T课件,基于Mahout API运行k-means算法,给出初始聚类中心,1 1010 110 10,调用Mahout API运行k-means聚类算法,指定Hadoop配置信息、输入数据、初始聚类中心,迭代2次得到聚类结果,of,44,9,4.1 Mahout,大数据配套PPT课件,基于多维输入数据运行k-means算法,60维数据样本,600条60维趋势数据(600行60列)表达了正常、循环、渐增、渐减、向上偏移和向下偏移6类趋势每类100条,每类取一条做初始聚类中心运行KmeansDemo类将计算出的聚类中心数据导入到Excel文件,6个聚类中心所代表的趋势曲线,of,44,10,4.1
5、 Mahout,大数据配套PPT课件,考察已被分类的样本数据,学习训练分类规则,有监督学习算法,进行输入数据的类别判定,分类预测,垃圾邮件检测,of,44,11,4.1.3 分类算法,4.1 Mahout,大数据配套PPT课件,逻辑回归算法,Mahout下基于随机梯度下降(SGD)实现的逻辑回归(Logistic Regression)算法是一种二元分类算法,只能在单机上运行,适合分类算法的入门学习。,可视化表达,训练学习,模型评估,of,44,12,4.1 Mahout,大数据配套PPT课件,朴素贝叶斯算法,新闻网页数据,数据清洗,训练分类模型,新闻类别判定,共53条测试数据,正确分类51条
6、,未正确分类2条,of,44,13,4.1 Mahout,大数据配套PPT课件,通过收集大量用户(协同)的喜好信息,以自动预测(过滤)用户感兴趣的商品,协同过滤算法,基于物品的协同过滤算法,基于ALS的矩阵分解算法,计算物品相似性矩阵,通过矩阵分解进行预测,of,44,14,4.1.4 协同过滤算法,4.1 Mahout,大数据配套PPT课件,基于物品的协同过滤算法,用户评分矩阵,物品相似性矩阵,用户评分矩阵(补入预测评分),of,44,15,4.1 Mahout,大数据配套PPT课件,基于物品的协同过滤算法实现代码,public class ItemCFDemo extends Config
7、ured implements Tool public static void main(String args) throws Exception ToolRunner.run(new Configuration(), new ItemCFDemo(), args); Override public int run(String args) throws Exception Configuration conf = getConf(); try FileSystem fs = FileSystem.get(conf); String dir=/itemcfdemo; if (!fs.exis
8、ts(new Path(dir) System.err.println(Please make director /itemcfdemo); return 2; String input=dir+/input; if (!fs.exists(new Path(input) System.err.println(Please make director /itemcfdemo/input); return 2; String output=dir+/output; Path p = new Path(output); if (fs.exists(p) fs.delete(p, true); ,S
9、tring temp=dir+/temp; Path p2 = new Path(temp); if (fs.exists(p2) fs.delete(p2, true); RecommenderJob recommenderJob = new RecommenderJob(); recommenderJob.setConf(conf); recommenderJob.run(new String-input,input, -output,output, -tempDir,temp, -similarityClassname, TanimotoCoefficientSimilarity.cla
10、ss.getName(), -numRecommendations, 4); catch (Exception e) e.printStackTrace(); return 0; ,of,44,16,4.1 Mahout,大数据配套PPT课件,基于ALS的矩阵分解算法,用户特征矩阵U,物品特征矩阵M,预测评分矩阵A_k,用户评分矩阵A,用户评分矩阵U,用户评分矩阵M,A=UMT,预测评分矩阵A_k,of,44,17,全国高校标准教材云计算姊妹篇,剖析大数据核心技术和实战应用,习题,of,44,18,4.2 Spark MLlib,大数据配套PPT课件,MLlib支持的机器学习算法,MLlib,
11、运行在Spark平台上专为在集群上并行运行而设计,内存中更快地实现多次迭代,适用于大规模数据集,of,44,19,4.2 Spark MLlib,大数据配套PPT课件,import org.apache.spark.mllib.clustering.KMeans, KMeansModelimport org.apache.spark.mllib.linalg.Vectors/ Load and parse the dataval data = sc.textFile(data/mllib/points.txt)val parsedData = data.map(s = Vectors.dens
12、e(s.split(s+).map(_.toDouble).cache()/ Cluster the data into three classes using KMeansval k = 3val numIterations = 20val clusters = KMeans.train(parsedData, k, numIterations)for(c - clusters.clusterCenters) println(c)clusters.predict(Vectors.dense(10,10)/ Evaluate clustering by computing Within Set
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第四 数据 挖掘 工具 ppt 课件
链接地址:https://www.31ppt.com/p-1356677.html