数据分析方法MATLAB实现ppt课件.ppt
《数据分析方法MATLAB实现ppt课件.ppt》由会员分享,可在线阅读,更多相关《数据分析方法MATLAB实现ppt课件.ppt(79页珍藏版)》请在三一办公上搜索。
1、普通高等院校计算机课程规划教材,MATLAB数据分析方法,李柏年 吴礼斌 主编 张孔生 丁 华 参编,第2章 数据描述性分析,数据描述性分析是从样本数据出发,概括分析数据的集中位置、分散程度、相互关联关系等,分析数据分布的正态或偏态特征.描述性分析是进行数据进一步分析的基础.对不同类型量纲的数据有时还要进行变换,然后再作出合理分析.本章主要介绍样本数据的基本统计量、数据的可视化、数据分布检验及数据变换等内容.,2.1基本统计量与数据可视化,2.1.1样本数据的基本统计量,描述数据基本特征主要为集中位置和分散程度。设从所研究的对象(即总体)X中观测得到n个观测值,1.均值、中位数、分位数与三均值
2、,数据(x1,x2,xn)的平均值称为该数据的均值,记为,x1,x2,xn,这n个值称为样本数据, 简称数据,n称为样本容量.我们的任务就是要对样本数据(2.1.1)进行分析,提取数据中所包含的有用的信息,从而进一步对总体的特性作出推断.,(2.1.1),(2.1.2),样本均值描述了数据取值的平均位置.样本均值计算简易, 但易受异常值的影响而不稳健.,又将数据(2.1.1)按从小到大的次序排列,排序为k的数记为x(k)(1kn),即x(1) x(2) x(n),称,(2.1.3),为数据(2.1.1)的次序统计量.,由次序统计量定义数M,,称M为数据(2.1.1)的中位数。,(2.1.4),
3、中位数是描述数据的中心位置的数字特征,若数据的分布对称,则均值与中位数比较接近。若数据的分布为偏态,则均值与中位数差异会较大。中位数的一个显著特点是受异常值的影响较小,具有较好的稳健性.,设0p1,样本数据(2.1.1)的p分位数定义为,(2.1.5),其中np表示np的整数部分.,显然,当p=0.5时,M0.5=M,即数据的0.5分位数等于其中位数.,一般来说,从整批数据(总体)中抽取样本数据,则整批数据中约有100p%个不超过样本数据的p分位数. 在实际应用中,0.75分位数与0. 25分位数比较重要,它们分别称为上、下四分位数,记为Q3,Q1.,虽然均值与中位数都是描述数据集中位置的数字
4、特征,但是均值用了数据的全部信息,中位数只用了部分信息(位置信息),因此通常情况下均值比中位数有效.当数据有异常值时,中位数比较稳健。为了兼顾两者的优势,因此人们提出三均值的概念,定义三均值如下:,(2.1.6),由定义可知:三均值是上四分位数、中位数与下四分位数的加权平均,即分位数向量(M0.25,M,M0.75)与权向量为w=(0.25,0.5,0.25)的内积。,MATLAB提供了求均值、中位数、分位数的命令.,(1)均值命令mean,其调用格式 m=mean(X);其中,输入X为样本数据(2.1.1),输出m为样本均值。,(2)中位数命令median,其调用格式 MD=median(X
5、);其中输入参数X是样本数据(2.1.1),输出MD为中位数.,(3)P分位数命令prctile,其调用格式 SM=prctile(X,P);其中输入参数X是样本数据(2.1.1),P为介于0至100间的整数,P=100*p,输出SM为P%分位数。,注意:当样本数据X是矩阵时,上述三个命令的输出将给出X的每列数据的相对应的数值,参见例2.1.1.,(4)根据分位数命令及公式(2.1.6),可编写求三均值的MATLAB程序如下。w=0.25,0.5,0.25; %输入权向量wSM=w*prctile(X,w); %由(2.1.5)式计算X三均值,例2.1.1. 根据安徽省统计年鉴数据(表2.1)
6、计算各指标均值、中位数以及三均值.,项目6 数据描述性分析,例6-1 表6-1是某省各市森林资源情况统计数据,计算各指标均值、中位数以及三均值。,项目6 数据描述性分析,1、导入数据(方法一)原始数据是excel文件:data=xlsread(d:ys);%导入数据;(方法二)或先将excel文件放到work文件夹中,再B=xlsread(yuanshishuju.xls)(方法三)如果数据文件保存在excel的某个sheet中,我们的使用方式为: A = xlsread(data.xlsx,Sheet1);2、导出数据用 save b.txt B -ascii%(把矩阵B的数据,导出到了TX
7、T文件中,名字为b.txt),注意空格,-ascii 前有空格。xlswrite(a.xls,a) 即可读到excel文件中注意:(a是文件名,注意单引号必须英文状态下输入)这里的Excel都是Microsoft office中的Excel,对于wps的Excel,MATLAB无法读取在进行文件读取时,请先关闭所要读取的数据文件将数据写入Excel之前,请先删除同名Excel文件,以免数据覆盖,造成数据丢失,解:将表6-1的数据作为一个矩阵AA输入当前窗口,然后对矩阵AA调用有关命令函数,程序如下:,AA=53.9350.9815.48256.0065.41 44.9240.3814.9921
8、1.07151.14 148.19145.5417.10842.09677.52 293.86279.8628.801238.011035.67 86.9674.6412.91302.67299.32 791.50680.9677.803298.563252.88 598.92546.6735.602291.092099.21;M=mean(AA);MD=median(AA);w=0.25,0.5,0.25;SM=w*prctile(AA,0.25;0.5;0.75);M;MD;SM,输出结果如下: M_MD_SM %M文件名ans = 1.0e+03 * 0.2883 0.2599 0.02
9、90 1.2056 1.0830 0.1482 0.1455 0.0171 0.8421 0.6775 0.0449 0.0404 0.0129 0.2111 0.0654即如表6-2所示。,表6-2 某省森林资源均值、中位数与三均值,2.方差与变异系数方差是描述数据取值分散性的一种度量,它是数据相对于均值的偏差平方的平均.样本数据(2.1.1)的方差记为,(2.1.7),其算术平方根称为标准差或根方差,即,(2.1.8),刻画数据x1,x2,xn相对分散性的指标可以用变异系数,其计算公式为,(2.1.9),变异系数是一个无量纲的量,一般用百分数表示.在MATLAB中,计算方差命令var,调用
10、格式 S=var(x);计算标准差命令std,调用格式 d=std(x)其中输入x是样本数据,输出S为方差,d为标准差.当输入x是矩阵时,输出x每列数据的方差与标准差.,由均值与方差命令,可设计变异系数的计算程序为v=std(x)./mean(x),或者v=std(x)./abs(mean(x)当输入x是矩阵时,输出x每列数据的变异系数.,例2.1.2. 计算例2.1.1中各指标的方差、标准差与变异系数,解:将表2-1中的数据粘贴到MATLAB软件A=53.93,3252.88; % 粘贴原始数据M=mean(A); % 计算各指标均值D=var(A); % 计算各指标方差SD=std(A);
11、 % 计算各指标标准差V=SD./abs(M) % 计算各指标变异系数D;SD;V % 输出计算结果,表2.3安徽省森林资源方差、标准差与变异系数 (2008年),3. 样本的极差与四分位极差,极差的计算公式为:,它是表示数据的分散性的数字特征.MATLAB中公式为:max(data)-min(data),或 range(data),上、下四分位数Q3,Q1之差称为四分位极差,即 R1=Q3-Q1,MATLAB中计算数据data的公式为:iqr(data),4. 异常点判别,先求上、下截断点:R上=Q3+1.5R1 , R下=Q1-1.5R1小于R下或大于R上的数据均为异常值.,例2.1.3
12、根据2007年华东地区各高校教职工数据,计算专任教师、 行政人员、教辅人员以及工勤人员占在职教工的百分比,以及百分比的极差、四分位极差以及上、下截断点.,表2.4 2007年华东地区各高校教职工数据,解:A=61385354801028278427781134215885682017213371121046776345622109606798438359149407437278576353654786431385771250343733633924515381795495456512099681889163421161411151;,B=A(:,2:5)./A(:,1)*ones(1,4);
13、% 计算百分比R=range(B); % 计算极差 R1=iqr(B); % 计算四分位极差 XJ=prctile(B,25)-1.5*R1; % 计算下截断点SJ=prctile(B,75)+1.5*R1; % 计算上截断点,5.偏度与峰度,偏度是用于衡量分布的不对称程度或偏斜程度的指标.随机变量的偏度是变量的三阶中心矩除以标准差的三次方,计算样本的偏度公式为:,其中u3,s 分别表示数据的3阶中心矩与标准差.,Matlab计算数据偏度的命令为: skewness(data,0),正态分布的偏度为零,若pd0称分布具有正偏离,也称右偏态,情况相反;而偏度接近0则可认为分布是对称的.若知道分布
14、有可能在偏度上偏离正态分布时,可用偏离来检验分布的正态性.,峰度,峰度用来衡量数据尾部分散性,正态分布峰度为零,峰度0,则厚尾,峰度0,则细尾,在金融时间序列分析中,通常要研究数据是否为尖峰、细腰、厚尾等特性。,随机变量的峰度是变量的四阶中心矩除以标准差的四次方,计算样本的峰度公式为:,其中u4,s 分别表示数据的4阶中心矩与标准差.,Matlab计算峰度的命令为:kurtosis (data,0)-3.,例2.1.4 计算1995年1月3日至1999年4月1日IBM公司股票开盘价、最高价、最低价、收盘价以及成交量的偏度、峰度.,解:首先在MATLAB编辑窗口键入,ibm = ascii2ft
15、s(ibm9599.dat, 1, 3, 2);,得到数据共有六列,分别为:日期、股票开盘价、最高价、最低价、收盘价以及成交量数据. 然后键入,tsmat = fts2mat(ibm); % 提取ibm数据的后五列数据矩阵pd=skewness(tsmat,0); % 计算偏度fd=kurtosis (tsmat,0)-3; % 计算峰度pd;fd % 输出计算结果subplot(221),histfit(tsmat(:,1),title(open) % 做开盘价直方图subplot(222),histfit(tsmat(:,2),title(high) % 做最高价直方图subplot(22
16、3),histfit(tsmat(:,3),title(low) % 做最低价直方图subplot(224),histfit(tsmat(:,4),title(close) % 做收盘价直方图,表2.5 IBM公司股票偏度与峰度.,由于正态分布的偏度与峰度都应等于零,从表1.5可知IBM公司股票各指标均不服从正态分布.上述数据的直方图(图1.1)也验证了这一点.,图2.1 IBM公司股票直方图,2.1.2 样本数据可视化,1.可视化 数据可视化是指数据的图形表示。借助几何图形可形象说明数据的特征与分布情况。常用的图形有条形图、直方图、盒图、阶梯图和火柴棒图等.(1)条形图. 条形图是用宽度相同
17、的直线条的高低或长短来表示统计指标数值的大小.条形图根据表现资料的内容可分为单式条形图、复式条形图和结构条形图.单式条形图反映统计对象随某一因素变化而改变的情况.复式条形图可以反映统计对象随两个因素变动而变动的情况.结构条形图则反映不同统计对象内部结构的变化情况.,在MATLAB中,绘制条形图命令bar,调用格式 bar(X) bar(x,Y)作样本数据X的条形图; x的元素在横坐标轴上按从小到大排列,作Y和x对应的条形图.,(2)直方图.将观测数据的取值范围分为若干个区间, 计算落在每个区间的频数或频率.在每个区间上画一个矩形, 以估计总体的概率密度.在MATLAB中,绘制直方图命令hist
18、,调用格式 hist(x,n)%作数据x的直方图,其中n表示分组的个数,缺省时n=10 h,stats = cdfplot(x),%作数据x的经验分布函数图,stats给出数据的最大值、最小值、中位数、平均值和标准差.附加有正态密度曲线的直方图命令histfit,调用格式 histfit(X)%X为样本数据向量,返回直方图和正态曲线. histfit(X,nbins)% nbins指定bar的个数,缺省为X中数据个数的平方根.,(3)盒图.盒图是由五个数值点组成:最小值,下四分位数,中位数,上四分位数,最大值.中间的盒子是从Q1延伸到Q3,盒子里的直线标示出中位数的位置,盒子两端有直线往外延伸
19、到最小数与最大数.,在MATLAB中,绘制盒图命令boxplot,调用格式 boxplot(X)%产生矩阵X的每一列的盒图和“须”图,“须”是从盒的尾部延伸出来,并表示盒外数据长度的线,如果“须”的外面没有数据,则在“须”的底部有一个点.,(4)阶梯图命令stairs,调用格式 stairs(x) % 作数据x的阶梯图,(5)火柴棒图命令stem,调用格式 stem(x) % 作数据x的火柴棒图,例2.1.5随机生成150个服从标准正态分布随机数,将这些数据作为样本数据,分别作出样本数据的柱形图、直方图、阶梯图、火柴棒图等图形。,解:x = random(normal,0,1,1,150);
20、%产生服从标准正态分布随机数150个bar(x) %作柱形图(图2.2)hist(x,20) %作直方图(图2.3)stairs(x) %作阶梯图(图2.4)stem(x) %作火柴棒图(图2.5),图2.2柱形图 图2.3直方图,图2.4 阶梯图 图2.5 火柴棒图,2. 二维与三维数据可视化,(1)散点图命令scatter与scatter3,调用格式 scatter(x,y)其中x是横坐标,y 是纵坐标,输出平面散点图。 scatter3(x,y,z)其中x ,y,z分别是横、纵、竖坐标向量,输出空间散点图,(2)曲面图命令mesh与surf,调用格式 mesh(X,Y,Z) 或surf(
21、X,Y,Z)其中Z是对应(X,Y)处的函数值Z=f(X,Y) ,X,Y是由命令meshgrid生成的数据点矩阵,即X,Y=meshgrid(x,y),输入向量x为xoy平面上矩形定义域的矩形分割线在x轴上的坐标,向量y为xoy平面上矩形定义域的矩形分割线在y轴上的坐标.矩阵X为xoy平面上矩形定义域的矩形分割点的横坐标值矩阵,X的每一行是向量x,且X的行数等于y的维数;矩阵Y为xoy平面上矩形定义域的矩形分割点的纵坐标值矩阵,Y的每一列是向量y,且Y的列数等于x的维数.,例2.1.6对 作二维正态分布随机数的散点图,解:随机生成服从二维正态分布的数据的命令mvnrnd,调用格式 X=mvnrn
22、d(mu,sigma,n)其中mu是均值向量,sigma是协方差矩阵,n是数据个数,输出X是和协方差矩阵同阶的随机数据矩阵.,clearmu = 2 3; %输入均值向量sa = 1 1.5; 1.5 3; %输入协方差矩阵r = mvnrnd(mu,sa,100); %生成n=100的样本数据scatter(r(:,1),r(:,2),*); %作样本数据平面散点图,%绘制密度曲面figure(2)v=sqrt(3)/2; %输入相关系数x=-1:0.05:5; %横坐标的取值向量y=-2:0.05:8; %纵坐标的取值向量X,Y=meshgrid(x,y); %生成网格点T= (X-mu(
23、1).2/sa(1,1)-2*v/sqrt(sa(1,1)* sa(2,2)*(X-mu(1).*(Y-mu(2)+(Y-mu(2).2/sa(2,2);%计算密度函数值Z=1/(2*pi)/sqrt(det(sa)*exp(-1/2/(1-3/4)*T); mesh(X,Y,Z) %绘制曲面,图 1.6样本数据的散点图 图 1.7样本数据的密度曲面图,由图形1.6.可以看出,散点图位于平面上的一个椭圆状区域内,不同的相关系数对应的椭圆状区域形状不同,相关系数越接近与1,椭圆越扁长,可以利用这一图形特征初步说明数据是否来自正态总体.,设总体服从正态分布N(,2),来自总体的样本为x1,x2,x
24、n,其次序统计量 ,则平面上n个点,3. QQ图,的散点图称为样本QQ图,其中-1(.)为标准正态分布函数的反函数.,可以证明,若样本确是来自正态总体, 则散点在直线附近,即QQ图大致呈现一条直线形状。当样本来自其它分布总体时,样本QQ图将是弯曲的.这样,利用QQ图可以直观地作正态性检验,即若QQ图近似一条直线时,则可认为样本数据来自正态总体.,在MATLAB中,作正态分布QQ图命令normplot,调用格式: normplot(X)其中输入X为向量时,显示正态分布QQ图;当X为矩阵,则显示每一列的正态分布概率图形.,作威布尔分布的QQ图命令weibplot,调用格式: weibplot(X)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 方法 MATLAB 实现 ppt 课件
链接地址:https://www.31ppt.com/p-1921308.html