1314赛季NBA球员数据的聚类分析研究.doc
《1314赛季NBA球员数据的聚类分析研究.doc》由会员分享,可在线阅读,更多相关《1314赛季NBA球员数据的聚类分析研究.doc(25页珍藏版)》请在三一办公上搜索。
1、 “R软件”课程综合作业姓 名: 解宇涵 学 号: 20112319 年 级: 2011级 班 级: 统计(2)班 学院及专业: 数学与统计学院 任课教师: 张应应 上课时间: 2014 年 4 月至2014 年 6 月 考 生 成 绩: 阅卷评语: 阅卷教师 (签名) 13-14赛季NBA球员数据的聚类分析研究摘要勒布朗詹姆斯作为NBA历史上处于前列的球员又一次在总决赛与冠军失之交臂。再一次把James推向舆论声中,但简单地根据比赛结果评价一个球员是盲目的。本文分析的重点将定为20132014赛季的NBA球员,主要意图是对该赛季James在联盟中的地位分析。本文将运用R软件进行计算,运用直观
2、分类,聚类分析模型,主成分分类模型,假设检验得出全能的James的打球风格更接近哪一类球员,在该类球员中James的能力处于什么水平。运用直观分类及聚类分析,从官方确定的5个位置出发,比较James与每一个位置球员的得分能力,James在联盟中属于强核心球员,得分效率较高但没有显著地高于平均水平。因为同一个位置的球员,打球风格也各异。考虑对全联盟的高水平球员进行聚类分析。为克服变量过多、变量之间的相关性的影响,运用主成分分析将21个变量降维至3个主成分,再运用各球员的主成分得分进行聚类分析。最后通过分析得到James的属于“进攻型内线球员”,综合能力处于该类前列,得分效率较高但没有显著地高于平
3、均水平。关键词:体育统计 聚类分析 主成分分类 假设检验 R软件 NBA 勒布朗詹姆斯目录摘要I目录II1. 绪论11.1选题的背景和意义11.2论文综述11.3本文主要研究思路与文章结构安排11.3.1本文的研究思路11.3.2本文的文章结构安排22. NBA的统计资源32.1 NBA统计的原始数据32.1.1数据来源:32.1.2 符号说明32.2 本文的数据处理42.2.1得分效率42.2.2得分频率42.3待测球员的选取42.3.1 PF的球员筛选52.3.2 待测球员准入原则53. James在联盟中的地位分析73.1基于球队位置的聚类分析73.1.1 PF的聚类分析73.1.2其他
4、位置的聚类分析93.1.3 得分效率均值的显著性检验113.2在主成分分析下的聚类模型133.2.1 主成分分析模型133.2.2 高水平球员数据的主成分分析153.2.3 主成分得分173.2.4 基于主成分得分的聚类分析18参考资料221. 绪论1.1选题的背景和意义体育统计学在全世界得到广泛的应用和重视,各种统计软件,如R软件,不断升级和普及,使得普通球迷也能根据比赛的具体数据,进行更具体和及时的统计分析,来评价球员或球队水平、预测比赛胜负及具体结果。本文选择篮球比赛数据为研究内容,以著名球员James为研究对象,使得论文的内容和结果具有意义1.2论文综述统计技术已经在篮球比赛中得到广泛
5、应用,中外学者都试图通过比赛数据,选取适当的统计技术,揭露运动员存在的问题。由于本文篇幅所限,下面仅具体介绍几篇论文的情况。常庆用逐步回归分析方法研究篮球比赛中诸因素与胜负的关系寻找描述篮球比赛中各结束因素之间依存关系的数学表达式。向政2003-2004赛季NBA篮球联赛火箭队与湖人队实力比较分析,采用文献资料法,观察法,数理统计法。从季后赛5场比赛的投篮命中率、篮板球、失误、犯规及心理承受能力进行比较分析。陈卫02-07赛季姚明在NBA进攻情况的分析,运用统计法、文献资料法、观察法、比较分析法,分析在02-07赛季进攻情况的优劣,通过对姚明在NBA进攻的方式、方法归纳,比较姚明和其他NBA优
6、秀中锋的进攻规律和特点、优势和不足,总结出优秀中锋的发展方向和今后训练的侧重方向。李国岩2005-2006NBA常规赛姚明技术指标探析,客观评价姚明在新赛季的竞技能力,姚明的相关比赛指标与球队的胜负有一定的规律性关系。1.3本文主要研究思路与文章结构安排1.3.1本文的研究思路勒布朗詹姆斯作为NBA历史上处于前列的球员又一次在总决赛与冠军失之交臂。再一次把James推向舆论声中,但简单地根据比赛结果评价一个球员是盲目的。本文分析的重点将定为20132014赛季的NBA球员,主要意图是对该赛季James在联盟中的地位分析。本文将运用直观分类,聚类分析模型,主成分分类模型得出全能的James的打球
7、风格更接近哪一类球员,在该类球员中James的能力处于什么水平。本文首先从球员的得分能力出发,根据NBA统计专家惯用的数据处理方式,定义出“得分效率”和“投篮频率”评价球员的得分能力。为排除其他的干扰,在选取球员的过程中,通过分析,设定了“600次投篮”的准入底线。运用直观分类及聚类分析,从官方确定的5个位置出发,比较James与每一个位置球员的得分能力,初步得出James在全联盟中的得分水平。因为同一个位置的球员,打球风格也各异。考虑对全联盟的高水平球员进行聚类分析。为克服变量过多、变量之间的相关性的影响,运用主成分分析将变量降维,再运用各球员的主成分得分进行聚类分析。最后通过分析得到Jam
8、es的所处类别,及在该类别中的能力水平。1.3.2本文的文章结构安排本文分为三章,第一章, 绪论部分,主要介绍本文选题的背景及相关论文的综述、文章的研究思路以及结构安排。第二章, NBA的统计分析。主要介绍NBA的专业术语、本文选取的变量及数据描述介绍以及在球员选择上的考虑。第三章, James在联盟中的地位分析。运用聚类分析、主成分分析主要介绍按照官方位置的地位分析、主成分分类后的地位分析。2. NBA的统计资源2.1 NBA统计的原始数据2.1.1数据来源:本文的数据来自BBR:http:/www.basketball- 20132014赛季常规赛82场比赛的球员总数据。2.1.2 符号说
9、明符号含义T信号灯周期,研究路段周期长度为60s单条直行车道的设计通行能力,pcu/h;周期内绿灯时间,研究路段为30 s;绿灯亮后,第一辆车启动、通过停车线的时间,s,平均取;直行车通过停车线的车头时距,s;单条直行车道的设计通行能力周期内绿灯时间,研究路段为30 s绿灯亮后,第一辆车启动、通过停车线的时间,s,平均取直行车通过停车线的车头时距,s事故发生后,第i个周期内事故断面实际通行能力第i个周期中,通过事故断面的标准车当量数车流中集散波波速车辆进入分界面前的上游流量车流进入分界面前的密度车辆进入分界面前的下游流量车辆通过分界面后的密度第i周期内车辆排队长度变化量第i周期30秒通行信号灯
10、内车流中集散波波速第i周期内30秒禁止通行信号灯内车流中集散波波速第i周期内车辆进入分界面前的上游流量第i周期内车流进入分界面前的密度第i周期内车辆进入分界面前的下游流量第i周内车辆通过分界面后的密度2.2 本文的数据处理得分能力是衡量进攻能力的重要指标。球队能否获胜最终要由他们取得的分数多少来决定。在一场比赛里,两支对垒球队获得的投篮机会在数量上是基本相当的,因此,哪支球队能更合理的在己方队员间分配出手机会,哪队的球员能更有效地使用这些机会,他们就可以得到比对手更多的分数。反映进攻能力的指标显然不仅仅是得分能力这一项数据,另外象进攻篮板能力,协作程度等等也都是体现进攻能力的重要指标(同时它们
11、各自对得分能力的数据也有影响)。但我现在倾向于对简单化的数据进行分析。象EFF、PER那样的线型方程式的综合性数据主要功用还是拿来做排名系统,它们实际说明问题的能力反而还不如简单处理的数据。现在用最简单的方法把球员的得分能力切为两个部分来分析:l 得分效率;投篮频率(得分负荷)2.2.1得分效率所谓得分效率,这里用的是“每次出手能得到的分数”的定义。公式:得分效率 = 得分 / (投篮次数 + 0.44*罚球次数)由于大多数的罚球来自于投篮出手被犯规,转化为罚球后,原投篮在数据上就不再算一次投篮而另算两或三次的罚球机会。因此,完整地统计球员的投篮次数就需要加算罚球次数。投篮次数与罚球次数间的转
12、换系数大约是0.44。得分效率这项数据主要是用来取代命中率的,一般统计球员的命中率必须分开考量两分命中、三分命中和罚球命中三个部分。由于本次调查得分能力并不需要细分球员的得分手段,而只需要单论球员的得分效果即可,所以,应用合并了的得分效率显然比应用三项命中率来得更简便更直观。2.2.2得分频率单独观察得分效率仍不足以分析球员的得分能力。球员的高效率很可能来自于他的低出手。没有多少进攻任务的角色球员,偶尔只在获得极佳的出手机会时才投篮,效率自然比球队主攻手要高。但这些角色球员的进攻能力是肯定不如主攻手的。因此,分析球员的得分能力,还要引入“投篮频率”这项数据,由此观察球员的得分负荷状况。所谓投篮
13、频率,这里用的是“单位上场时间的投篮次数”的定义。公式:投篮频率=投篮次数/上场时间2.3待测球员的选取13-14赛季现役球员共有482名,上场时间从1分钟的DeAndre Liggins到3122分钟的Kevin Durant不等;论进攻能力,投篮数从0的Chris Smith到1688的Kevin Durant不等。因此有必要对待测球员进行筛选。以下以PF为例进行分析,其他位置类似。2.3.1 PF的球员筛选本赛季现役大前锋中共有98名,以下是全员大前锋得分能力散点图图1 全员大前锋得分能力散点图根据上图可以明显看到,有大量的球员堆叠在某个区域,其他位置的球员分布较散,差异明显。运用这种数
14、据会影响到分析的结果,一方面,有些球员因为伤病或能力较差,得分能力与高水平球员有明显差别,他们没有分析的意义;另一方面,有些球员因为出手次数很少导致的得分效率很高也作为整体数据的奇异值影响分析。表1 全员大前锋得分能力聚类分析部分结果第一类White.6.SACWhite.7.CHA第二类James.2.SASOnuaku.29.TOT第三类Plumlee.27.BRKHollins.59.LAC注:表1仅为部分数据,全部数据共将98名球员分为4类,采用均值法上图是运用全员PF得分能力的聚类分析部分结果,在需要分为4类的聚类分析中,前三类所包含的球员均是上场时间较少,投篮数较少的球员,因此必须
15、设置准入底线以保证统计分析的意义。2.3.2 待测球员准入原则本文设置“600次投篮”的准入底线,只有在本赛季达到600次以上投篮的球员才有机会进入统计。投篮太少的球员投篮频率很高是因为出场时间很短,而不是擅于进攻。投篮太少,得分效率受其他因素影响的可能性也很大,不适于进行分析。600次投篮的底线基本保证了统计分析的可靠,进入这次统计分析的大多是各球队的主力球员。3. James在联盟中的地位分析3.1基于球队位置的聚类分析James在球队中的位置是大前锋(以下简称PF),所以首先从联盟高水平的PF进行分析。因为James在联盟中数据全能,在球队中是核心球员,他具备与其他位置球员的比较得分能力
16、的条件,遂在第二部分将他与各位置球员进行比较分析。3.1.1 PF的聚类分析3.1.1.1 PF的直观分类表2 投篮数大于600的大前锋数据统计PF人数均值最大值球员29投篮频率得分效率投篮频率得分效率0.411.10Aldridge.96.PORJames.55.MIA21543下图3是筛选后的大前锋得分能力情况。图3 大前锋得分能力散点图c1理想情况下,球员的投篮频率应该围绕球员的得分效率上下波动,即投篮效率与投篮频率之间满足某种线性关系,而图形的直观表示就是散点图中在某条直线附近聚集了较多的点,如上图3中,球员的得分能力有这样的分布趋势。如图3,大致可以图3划分为以下4个区域:l 区域1
17、强核心球员 (近似: 负荷0.45, 效率1.15)l 区域2弱核心球员 (近似: 负荷0.45, 效率1.05)l 区域3弱角色球员 (近似: 负荷0.45, 效率1.15)l 区域4强角色球员 (近似: 负荷1.15)l 区域5进攻二把手 (近似: 0.35负荷1.15)注:以上和后面提及的“核心球员”与“角色球员”仅仅针对得分能力而言。【强核心球员】是球队无可争议的进攻核心,频繁投篮附加高效率。见上图3,James、Nowitzki、Love,Griffin就属于这一类型。【弱核心球员】占据大量的投篮机会,但是效率很低,远远偏离对角线,属于有争议的进攻核心型球员,他们可能是鱼腩球队的攻击
18、手,被迫承担明显超负荷的进攻任务,Randolph是典型的代表。假如球队中存在弱核心球员,说明该球队存在严重的进攻权分配问题,主攻手获得的支援火力非常有限。【弱角色球员】低出手低效率的普通进攻球员,是联盟中处于中庸水平的一群人,虽然各有所长,但是必然无法成为超级明星,或者独立地撑起一个球队的进攻。【强角色球员】低出手高效率的潜力进攻球员。他们恰好与弱核心球员形成对比,但大多是新秀,经验不足,稍待时日可能成为球队当家。显然JAMES在直观的分析中属于强核心球员中的得分效率最高者,是球队无可争议的进攻核心,频繁投篮附加高效率,下面将对PF进行聚类分析。3.1.1.2 PF的聚类分析系统聚类的主要思
19、想为:n 个样品各自为一类,并按照规定的方法计算样本之间的距离及类之间的距离。再将类间距离最短的两类合并为新类,计算新类与各类之间的距离,重复进行直至所有类合并为一类。类间距离的定义有很多种,本文选取最长距离法、类平均法、重心法及离差平方和法完成系统聚类。由于进行聚类分析的球员较多,聚类图不方便一一罗列,遂选取离差平方和法得到的系统聚类结果进行具体分析。图4 高水平PF聚类图(ward方法)如上图4,James、Nowitzki、Love,Griffin分为一类,恰好是上图3散点图中的区域1,说明这一类代表了核心强进攻球员。另外几类分类情况也大部分满足上图3散点图的直观分类,如图4的最右边一类
20、,就是弱核心球员的类别。综上所述,James在联盟中的PF中属于强核心球员。3.1.2其他位置的聚类分析由于本文的核心是分析James在全联盟的地位,遂将不过多地分析各个位置的球员得分能力分布情况。3.1.2.1 直观分类表3 四个位置的球员得分能力统计数据位置人数均值最大值球员投篮频率得分效率投篮频率得分效率SG370.3911.11Young.1.LALHarden.60.HOUPG370.3961.07Westbrook.5.OKCCurry.67.GSWSF280.3571.10Durant.65.OKCDurant.65.OKCC180.3751.11Jefferson.48.CHA
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 1314 赛季 NBA 球员 数据 聚类分析 研究

链接地址:https://www.31ppt.com/p-5517699.html