大数据技术及应用——基于Python语言 思考题参考答案 严宣辉 - 第5--9章 大数据计算---大数据应用案例.docx
《大数据技术及应用——基于Python语言 思考题参考答案 严宣辉 - 第5--9章 大数据计算---大数据应用案例.docx》由会员分享,可在线阅读,更多相关《大数据技术及应用——基于Python语言 思考题参考答案 严宣辉 - 第5--9章 大数据计算---大数据应用案例.docx(17页珍藏版)》请在三一办公上搜索。
1、第五章大数据计算1.简述IfepRedUCe计算过程将输入文件切分为逻辑上的多个Sp1.it,通过RecordReader处理Sp1.it中的具体记录,加载数据并转换为适合Map任务读取的,并输入给Map任务。(2) Map:根据用户自定义的映射规则,输出一系列key,VaIUe的作为中间结果。(3) Shuff1.e:对Map任务的输出结果进行一定的分区、持序(Sort),合井(Combine)、归并(Merge)等操作,得到形式的中间结果,并交给对应的Reduce任务进行处理。(4) Reduce:以系列key,va1UeTiSt的中间结果作为输入,执行用户定义的逻辑,输出结果给Outpu
2、tFormat4(5) OutputForma1.验证输出FI录是否已经存在及输出结果类型是否符合配餐文件中的配践类型,并输出RedUCe任务的结果到分布式文件系统。2 .简述本章列举的大数据计笄模式的异同(1)在大数据领域,批处理计算是把所有的数据算-遍以获得答案的计鸵模式:而流计算中处理的数据是源源不断地、突发地到来的流数据(或数据流)。批处理计克使用的算法经常被称为批量尊法,流计算使用的算法经常被称为增信兑法,潦计算常常需要大数据算法的支持。(2)图计.算和流计郛、MaPRedUCe等类似,是一种通用分布式计算模式,解决的是在大规模分布式计算环境下的共性问题。但是,它乂和流计算不同,图计
3、算是一种真正的计算模式,各种图计算系统也通过提供API等形式,允许开发者在一致性的计算模式下,根据自己的需要开发特定的应用。(3)查询分析计豫利用SQ1.对文本或者非结构化数据进行处理的通用数据处理架构。(4)云计算代表了以虚拟化技术为核心、以低成本为目标的、动态可扩展的网络应用基础设施。3 .简述云计算的服务模式云计算中典型的服务模式:基础设施即服务(IaaS),平台即服务(PaaS)和软件即服务(SaaS)o4 .前述云计算的类型云计算的类型包括公有云、私有云和混合云。5 .简述云计算的关键技术云计算的关键技术包括虚拟化技术、分布式存储、分布式计算,多租户技术。6 .简述云计算与大数据的区
4、别与联系(1)云计算和大数据的区别:云计算旨在整合和优化各种IT资源,并通过网络以服务的方式廉价地提供给用户;大数据旨在对海量数据的存储、处理与分析,从海量数据中发现价值,服务于社会生产和生活。(2)云计算和大数据的联系,从整体上看,大数据和云计算是相辅相成的。云计算为大数据处理提供了强大的计算和存储基础设施,同时也可以提供各种数据管理和分布式计和服务,使得大数据处理变得更加高效和灵活。反之,大数据为云计篮提供了“用武之地”,没有大数据这个“练兵场”,云计.算再先进,也不能发挥它的应用价值。可以说,云计算和大数据已经彼此渗透、相互融合、相互促进、相互影响,7 .简述YARN各组件的功能(1)
5、ResourceManager:处理C1.ient的请求:启动/监控pp1.icatiorMaster;监控NOdeMarU1.ger;资源分配与调度(2) App1.icationMaster:为应用申谛资源,并分配给内部任务;任务调度、监控与容错(3) NodeManager:单个节点上的资源管理;处理来BReSOUrCeMUnager的命令;处理来自App1.icationMaster的命令8 .简述SparkRDO依赖关系区别RDD的依敕关系可以分为两种类型:(D窄依赖关系:每个父RDD分区最多只有一个子RDD分区依赖它。(2)宽依赖关系:每个父RDD分区可以有多个子RDD分区依赖它。
6、9 .葡述Spark的运行架构(1)当个SPark应用被提交时,首先为这个应用构建起基本的运行环境,(2)资源管理淞为EXeeUtOr分配资源,并启动Ex。CUtOr,Executor运行情况符随若“心跳”信息发送到资源管理器上。(3) SparkContext根据RDD的依赖关系构建DAG,并将DG提交给DAG调度器进行解析。(4)任务在Executor上执行,执行结果被反馈给任务调度器和DAG调度罂,执行完毕后写入数据并释放所有资源。10 .简述HadooptO的改进与提升针对Hc1.op1.0存在的局限与不足,在后续发展过程中,HadOoP对MaPRedUCe和HDFS的许多方面做了有针
7、对性的改进与提升:(I)HDFS:对于单名称节.点,存在的单点故障问题,设计了HDFSHA.提供名称节点热备份机制.对于单一命名空间,无法实现资源隔离问题,设计TIIDFS联邦,管理多个命名空间。(2)MaPRedUCe:对于资源管理效率低的问题,设计了新的资源管理调度框架YARN。11 .使用代码实现一个匍单的询频疑计MapRoduce应用*mapper函数defmapper(1.ine):words=1.ine,strip().sp1.it()forwordinwords:yie1.d(word,1)#reducer函数defreducer(word,counts):returnword,
8、sum(counts)总主程序if_name_=_main_,:# 读取输入文件withopenCinput,txt,r,)asf:1.ines=f.read1.ines()# 执行mapper函数PairS=for1.inein1.ines:pairs,extend(mapper(1.ine)# 按键进行分组groups=)forpairinpairs:word,count=pairifwordnotingroups:groupsword=groupsword.append(count)# 执行reducer函数resu1.ts=forword,countsingroups,iIemsO:r
9、esu1.t=reducer(word,counts)resu1.ts,append(resu1.t)# 输出结果forresu1.tinresu1.ts:print(resu1.t)12介绍一个本章未详细介绍的大数据计算平台或工具,形成报告SParkSQ1.的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具。SparkSQ1.是ApacheSpark中用于处理结构化数据的模块,它提供了种基于SQ1.的统数据处理引擎,支持许多标准SQ1.查询以及内置函数和聚合操作,同时还能够与Spark的其他组件集成,例如SparkSIreUming、M1.1.ib和
10、GraphXe(I)SparkSQ1.的几大优点:易整合:无的整合fSQ1.查询和Spark编程统一的数据访问:可以使用相同的方式连接不同的数据源报容Hive:在已有的仓库上直接运行SQ1.或者HiveQ1.标准数据连接:通过JDBC或者ODBC来连接(2)S1wrkSQ1.的主要功能包括:支持多种数据源:SparkSQ1.支持从多种数据源中读取数据,包括JSoN、Parquet、Hive表、JDBC数据库等。支持SQ1.查询:SparkSQ1.可以通过SQI.查询语句进行数据查询和分析,支持标准SQ1.杳询语句、聚合函数、内巴函数等。 DataFrameAPI:SparkSQ1.还提供了Da
11、taFramePI,使得用户可以用类似于SQ1.的方式进行数据查询和处理,同时也可以通过编程方式实现更更杂的操作. 优化器:SparkSQ1.中内置了一个堪于CaIaIyS1.的优化器,能雄自动优化查询计划,提高查询性能。 集成Hive:SparkSQ1.还可以与Hive集成,用户可以使用SparkSQ1.的API或SQ1.查询语句查询Hive表,还可以招SparkSQ1.的结果保存到Hive表中。SparkSQ1.的应用场景包括数据仓库、数据分析、数据挖掘、报表等领域,它可以处理结构化数据和半结构化数据,支持多种数据源和数据格式,并提供了易丁使用的API和查询语言,是Spark生态系统中重要
12、的组成部分。第六章大数据挖掘1 .数据挖掘的任务有哪些?每项任务的含义是什么?数据挖掘的主要任务,具体包括聚类分析、硕测建模(分类和回归)、关联分析、异常检测。聚类是种查找院版在数据之间内在结构的技术,它将所有的样本数据组织成一些相似的组,根据样本数据的特点对其进行分类,使得同一类别中的数据实例具有相似性的特点,不同类别的数据实例相似性应尽可能小。预测建模是通过变量函数的方式为因变量建立模型。预测建模任务通常分为两大类:分类任务,用于预测离散的因变量:回归任务,用于预测连续的因变量。关联分析是用来发现描述数据中强关联特征的模式,它利用关联规则进行数据挖掘,以发现隐藏在大型数据集中令人感兴趣的联
13、系。异常检测的任务是识别数据特征显著不同于其他数据的观测值。这样的观测值称为异常点或离群点。异常检测算法的目的是发现真正的离群点,而避免错误地将正常的对象标注为离群点.2 .数据挖掘和知识发现的概念有什么异同?数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道但又是潜在有用信息的过程“这些信息的表现形式为规则、概念、规律及模式等。许多人把数据挖掘等同于数据库中的知识发现,实际上数据挖掘是数据库中知识发现不可缺少的一部分,而知识发现是将未加工的数据转换为仃用信息的过程,该过程包括一系列转换步骤,从数据的预处理到数据挖掘结果的后处理。3 .按如下标准对
14、下列每种聚类算法进行描述,可以确定的微的形状;必须指定的泊入参数;局限性。(1) k-means:K-means算法是一种基于距离的聚类郛法,将平均值作为类“中心”进行分割聚类。适用于球形族,使用时需要指定赧的数量和初始中心点。时非球形簇分布的数据效果不好,且对初始中心点的选择敏感:(2) k中心点:K中心点算法是一种基于距离的聚类算法,它将数据集分成K个簇,每个簇的中心是该簇内距离最远的两个点之间的中点。适用于球形族,使用时需要指定赧的数量和初始中心点。对非球形族分布的数据效果不好,I1.对初始中心点的选择极感:(3) DBSCAN:DBSCAN兑法是一种基于高密度连通区域的聚类算法,它将类
15、簇定义为高密度相连点的最大集合。适用于各种更杂形状的数据集,需要设置半径和密度阈值来确定震。对于高维数据集,和弯度差异较大的数据集,DBSCAN聚类效果不佳:(4) C1.ABA算法附机地抽取多个样本,针对每个样本寻找其代表对缴,并对全部的数据对象进行聚类,从中选择质量最好的聚类结果作为鼓终结果。算法需要指定采样数星和孩数量:Ko算法对不同的初始节点会导致不同的聚类结果,且结果往往收敛丁局部最优,对数据对以的输入顺序异常被感,且只能处理凸形或球形边界聚类。4 .结果如下.(1)第一次循环执行后的三个聚类中心:A1.(2,10).B2(7,5)C1(1,2)(2)最后的三个簇:C2(4,9),A
16、1.(2,10),B1.(5,8)B2(7,5),A3(8,4),B3(6,4)C1.(1.,2),A2(2,5)5 .简述分类的意义及常用的分类方法.分类是通过学习得到个目标函数f把每个属性集X映射到个预先定义的类标号y上,其中目标函数f也称分类模型。H前比较常用的分类算法有决策树算法、最近邻算:法、贝叶斯法、支持向量机、分类涔组合法和人工神经网络算法。6 .比较线性可分支持向机、线性支持向机和线性不可分的线性支持向机.线性可分支持向母机是指数据集可以被一个超平面完全分开的情况。在这种情况卜.,可以找到一个最大间隔超平面:线性支持向量机是指数据集不能被一个超平面完全分开的情况。在这种情况下,
17、可以使用软间隔最大化来找到个最大间隔超平面;线性不可分的线性支持向量机是指数据臾不能被一个超平面完全分开,并且不能使用软间隔最大化来找到一个最大间隔超平面的情况。在这种情况卜.,我们可以使用核函数将数据映射到高维空间中,然后在高维空间中找到一个最大间隔超平面。7 .列举常见的回归方法.常见的回归方法主要有线性回归、非线性回归、逻辑回归(1.OgiStiCRegression)多项式回归(Po1.ynomia1.Regression)岭回归及主成分回归.8 .支持向回归模型和支持向机的区别支持向民机(SVM)是种二分类模型,它的目标是找到一个超平面,将数据集分成两个部分。支持向量回归(SVR)是
18、支持向量机的一个应用分支,它是一种非常强大的回归方法。与SYM不同的是,SYR的目标是找到一个超平面,使得所有样本点到该超平面的距离都小于等于一个给定的阈值。SVR可以处理线性和非线性回归问题,并且可以使用核函数将数据映射到高维空间中,以处理非线性问题。9 .结果如下所示使用APriOri算法和FP算法得到的频繁项集相同,其结果如下:E:3(K):4(:3K,E1.:3Y,E:3(K,Y:3K,Y,E:3两4算力。到的频繁项集是相同的。但是,FP-grOwth算法的效率要高于Apriori算法,因为FP-growth算法只需要扫描数据集两次,而APriori算法需要扫描数据集多次。因此,在实际
19、应用中,FP-gr。*Ih卯法更加常用。10 .选择任意两种聚类算法进行编程实现(Python、Mat1.ab.Java.C任选一种)。以k-tneans和DBSCAN算法为例。需要先安装SCikit-Iearn库。fromsk1.earn.c1.usterimportKMeansfromsk1.earn.c1.usterimportDBSCANimportnumpyasn# 输入数据X=np.array(1,1),(1,2),(2,1),(8,8),(8,9),(9,8),(15,15)# k-meansprint(,k-tneans聚类结果)kmeans=KMeans(n_c1.uster
20、s=2,random.State=O)kmeans1.abe1.s=kmeans.fiJpredict(X)foriinrange(max(kmeans1.abe1.s)+1):print(fwC1.uster(i+1.):(1.ist(Xkmeans_1.abe1.s=i),)print(,n,)# DBSCANprin1.CDBSCAN聚类结果)dbscan=DBSCAN(eps=2,min_samp1.es=3)dbscan1.abe1.s=dbscan.fit_predict(X)foriinrange(max(dbscan_1.abe1.s)+1.):print(fC1.us1.er
21、(i+1.):(1.ist(Xdbscan1.abe1.s=1)print(f*Noise:1ist(Xdbscan_1abe1s-1)*)第七章大数据安全1 .大数据安全与隐私之间的区别与联系。区别:(1)需求不同.大数据隐私保护需求一般仅聚焦丁腔名性:而大数据安全需求更为广泛,不仅包括数据机密性,还包括数据完整性、其实性、不可否认性、平台安全、数据权属判定等。(2)聚焦对象不同大数据安全聚焦的数据对象是有明确定义的,可以是某个具体数据,也可以是一个信息系统中的全部信息:而大数据隐私的范围没有明显界定,隐私或显示或隐式存:在于多种数据类型中,联系:大数据险私的匿名性和大数据安全的机密性较为相
22、似。二者都希望用户的关键数据或者标识数据不被泄露,否则将会对用户的隐私安全、财产安全造成威胁。2 .大数据生命周期包括哪些?请详细介绍。(1)大数据的生命周期包括数据产生、采集、传输、存储、分析和使用、分享、谓毁等诸多阶段。(2)数据产生:在大数据时代,数据产生是指在目标领域有新的数据产生或者现有数据出现更新.(3)数据采集:数据采集是指数据采集方对于用户端、智能设备、传感器等终端产生的数据进行记录与预处理的过程。(4)数据传输:数据传输是指将采集到的大数据由用户端、智能设备、传感器等终端传输到大型集中式数据中心的过程.(5)数据存储:数据被采集后汇集并存储于大型集中式数据中心的过程。(6)分
23、析和使用:通过数据挖掘、机器学习等算法对数据进行处理,从而提取出用户所需的数据。(7)数据分享:将价值密度较高的信息向公众展示或用于其他目的的分享过程.(8)数据销毁:大数据系统中的某些数据一旦不再进行预期目的分析、长期内没有任何访问需求、超过生存时间戳以及存储冗余都会进行数据销毁。数据销毁主要包括数据硬销毁和数据重写两种方式。3 .大数据安全与隐私保护关镇技术有哪些?设施U面关键技术。大数据安全设施以防护主要涉及终端、云平台及大数据基础设施设备的安全问题,包括设备的失效、电磁破坏及平台的崩溃等问题。通常采用的关键技术包括终端安全防护技术、云平台安全防护技术及大数据基础设施安全防护技术等。(2
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大数据技术及应用基于Python语言 思考题参考答案 严宣辉 第5-9章 大数据计算-大数据应用案例 数据 技术 应用 基于 Python 语言 思考题 参考答案 计算 案例
链接地址:https://www.31ppt.com/p-7253159.html