数据分析方法MATLAB实现ppt课件.ppt

资源ID：1921308 资源大小：1.73MB 全文页数：79页
资源格式： PPT 下载积分：16金币

快捷下载

会员登录下载

三方登录下载：

下载资源需要16金币

邮箱/手机：
温馨提示：	用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）
支付方式：
验证码：	换一换

加入VIP免费专享

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

数据分析方法MATLAB实现ppt课件.ppt

普通高等院校计算机课程规划教材,MATLAB数据分析方法,李柏年吴礼斌主编张孔生丁华参编,第2章数据描述性分析,数据描述性分析是从样本数据出发，概括分析数据的集中位置、分散程度、相互关联关系等，分析数据分布的正态或偏态特征.描述性分析是进行数据进一步分析的基础.对不同类型量纲的数据有时还要进行变换，然后再作出合理分析.本章主要介绍样本数据的基本统计量、数据的可视化、数据分布检验及数据变换等内容.,2.1基本统计量与数据可视化,2.1.1样本数据的基本统计量,描述数据基本特征主要为集中位置和分散程度。设从所研究的对象(即总体)X中观测得到n个观测值,1.均值、中位数、分位数与三均值,数据(x1,x2,xn)的平均值称为该数据的均值，记为,x1,x2,xn,这n个值称为样本数据, 简称数据，n称为样本容量.我们的任务就是要对样本数据(2.1.1)进行分析，提取数据中所包含的有用的信息，从而进一步对总体的特性作出推断.,(2.1.1),(2.1.2),样本均值描述了数据取值的平均位置.样本均值计算简易, 但易受异常值的影响而不稳健.,又将数据（2.1.1）按从小到大的次序排列，排序为k的数记为x(k)(1kn)，即x(1) x(2) x(n)，称,(2.1.3),为数据（2.1.1）的次序统计量.,由次序统计量定义数M，,称M为数据（2.1.1）的中位数。,(2.1.4),中位数是描述数据的中心位置的数字特征，若数据的分布对称，则均值与中位数比较接近。若数据的分布为偏态，则均值与中位数差异会较大。中位数的一个显著特点是受异常值的影响较小，具有较好的稳健性.,设0p1，样本数据（2.1.1）的p分位数定义为,(2.1.5),其中np表示np的整数部分.,显然，当p=0.5时，M0.5=M，即数据的0.5分位数等于其中位数.,一般来说，从整批数据（总体）中抽取样本数据，则整批数据中约有100p%个不超过样本数据的p分位数. 在实际应用中，0.75分位数与0. 25分位数比较重要，它们分别称为上、下四分位数，记为Q3,Q1.,虽然均值与中位数都是描述数据集中位置的数字特征，但是均值用了数据的全部信息，中位数只用了部分信息（位置信息），因此通常情况下均值比中位数有效.当数据有异常值时，中位数比较稳健。为了兼顾两者的优势，因此人们提出三均值的概念，定义三均值如下：,(2.1.6),由定义可知：三均值是上四分位数、中位数与下四分位数的加权平均，即分位数向量(M0.25,M,M0.75)与权向量为w=(0.25,0.5,0.25)的内积。,MATLAB提供了求均值、中位数、分位数的命令.,（1）均值命令mean，其调用格式 m=mean(X);其中，输入X为样本数据(2.1.1),输出m为样本均值。,（2）中位数命令median，其调用格式 MD=median(X)；其中输入参数X是样本数据(2.1.1)，输出MD为中位数.,（3）P分位数命令prctile，其调用格式 SM=prctile(X,P)；其中输入参数X是样本数据(2.1.1)，P为介于0至100间的整数，P=100*p，输出SM为P%分位数。,注意：当样本数据X是矩阵时，上述三个命令的输出将给出X的每列数据的相对应的数值，参见例2.1.1.,（4）根据分位数命令及公式（2.1.6），可编写求三均值的MATLAB程序如下。w=0.25,0.5,0.25； %输入权向量wSM=w*prctile(X,w); %由(2.1.5)式计算X三均值,例2.1.1. 根据安徽省统计年鉴数据（表2.1）计算各指标均值、中位数以及三均值.,项目6 数据描述性分析,例6-1 表6-1是某省各市森林资源情况统计数据，计算各指标均值、中位数以及三均值。,项目6 数据描述性分析,1、导入数据（方法一）原始数据是excel文件：data=xlsread(d:ys);%导入数据；（方法二）或先将excel文件放到work文件夹中，再B=xlsread(yuanshishuju.xls)（方法三）如果数据文件保存在excel的某个sheet中，我们的使用方式为： A = xlsread(data.xlsx,Sheet1);2、导出数据用 save b.txt B -ascii%(把矩阵B的数据,导出到了TXT文件中，名字为b.txt)，注意空格，-ascii 前有空格。xlswrite(a.xls,a) 即可读到excel文件中注意：（a是文件名，注意单引号必须英文状态下输入）这里的Excel都是Microsoft office中的Excel，对于wps的Excel，MATLAB无法读取在进行文件读取时，请先关闭所要读取的数据文件将数据写入Excel之前，请先删除同名Excel文件，以免数据覆盖，造成数据丢失,解：将表6-1的数据作为一个矩阵AA输入当前窗口，然后对矩阵AA调用有关命令函数，程序如下：,AA=53.9350.9815.48256.0065.41 44.9240.3814.99211.07151.14 148.19145.5417.10842.09677.52 293.86279.8628.801238.011035.67 86.9674.6412.91302.67299.32 791.50680.9677.803298.563252.88 598.92546.6735.602291.092099.21;M=mean(AA);MD=median(AA);w=0.25,0.5,0.25;SM=w*prctile(AA,0.25;0.5;0.75);M;MD;SM,输出结果如下： M_MD_SM %M文件名ans = 1.0e+03 * 0.2883 0.2599 0.0290 1.2056 1.0830 0.1482 0.1455 0.0171 0.8421 0.6775 0.0449 0.0404 0.0129 0.2111 0.0654即如表6-2所示。,表6-2 某省森林资源均值、中位数与三均值,2.方差与变异系数方差是描述数据取值分散性的一种度量，它是数据相对于均值的偏差平方的平均.样本数据（2.1.1）的方差记为,（2.1.7）,其算术平方根称为标准差或根方差，即,（2.1.8）,刻画数据x1,x2,xn相对分散性的指标可以用变异系数，其计算公式为,（2.1.9）,变异系数是一个无量纲的量，一般用百分数表示.在MATLAB中，计算方差命令var，调用格式 S=var(x);计算标准差命令std，调用格式 d=std(x)其中输入x是样本数据，输出S为方差,d为标准差.当输入x是矩阵时，输出x每列数据的方差与标准差.,由均值与方差命令，可设计变异系数的计算程序为v=std(x)./mean(x)，或者v=std(x)./abs(mean(x)当输入x是矩阵时，输出x每列数据的变异系数.,例2.1.2. 计算例2.1.1中各指标的方差、标准差与变异系数,解：将表2-1中的数据粘贴到MATLAB软件A=53.93,3252.88; % 粘贴原始数据M=mean(A); % 计算各指标均值D=var(A); % 计算各指标方差SD=std(A); % 计算各指标标准差V=SD./abs(M) % 计算各指标变异系数D;SD;V % 输出计算结果,表2.3安徽省森林资源方差、标准差与变异系数（2008年）,3. 样本的极差与四分位极差,极差的计算公式为：,它是表示数据的分散性的数字特征.MATLAB中公式为：max(data)-min(data)，或 range(data),上、下四分位数Q3,Q1之差称为四分位极差，即 R1=Q3-Q1,MATLAB中计算数据data的公式为：iqr(data),4. 异常点判别,先求上、下截断点：R上=Q3+1.5R1 ， R下=Q1-1.5R1小于R下或大于R上的数据均为异常值.,例2.1.3 根据2007年华东地区各高校教职工数据，计算专任教师、行政人员、教辅人员以及工勤人员占在职教工的百分比，以及百分比的极差、四分位极差以及上、下截断点.,表2.4 2007年华东地区各高校教职工数据,解：A=61385354801028278427781134215885682017213371121046776345622109606798438359149407437278576353654786431385771250343733633924515381795495456512099681889163421161411151;,B=A(:,2:5)./A(:,1)*ones(1,4); % 计算百分比R=range(B); % 计算极差 R1=iqr(B); % 计算四分位极差 XJ=prctile(B,25)-1.5*R1; % 计算下截断点SJ=prctile(B,75)+1.5*R1; % 计算上截断点,5.偏度与峰度,偏度是用于衡量分布的不对称程度或偏斜程度的指标.随机变量的偏度是变量的三阶中心矩除以标准差的三次方，计算样本的偏度公式为：,其中u3,s 分别表示数据的3阶中心矩与标准差.,Matlab计算数据偏度的命令为: skewness(data,0),正态分布的偏度为零，若pd0称分布具有正偏离，也称右偏态，情况相反；而偏度接近0则可认为分布是对称的.若知道分布有可能在偏度上偏离正态分布时，可用偏离来检验分布的正态性.,峰度,峰度用来衡量数据尾部分散性，正态分布峰度为零，峰度0，则厚尾，峰度0，则细尾，在金融时间序列分析中，通常要研究数据是否为尖峰、细腰、厚尾等特性。,随机变量的峰度是变量的四阶中心矩除以标准差的四次方，计算样本的峰度公式为：,其中u4,s 分别表示数据的4阶中心矩与标准差.,Matlab计算峰度的命令为：kurtosis (data,0)-3.,例2.1.4 计算1995年1月3日至1999年4月1日IBM公司股票开盘价、最高价、最低价、收盘价以及成交量的偏度、峰度.,解：首先在MATLAB编辑窗口键入,ibm = ascii2fts(ibm9599.dat, 1, 3, 2);,得到数据共有六列，分别为:日期、股票开盘价、最高价、最低价、收盘价以及成交量数据. 然后键入,tsmat = fts2mat(ibm); % 提取ibm数据的后五列数据矩阵pd=skewness(tsmat,0); % 计算偏度fd=kurtosis (tsmat,0)-3; % 计算峰度pd;fd % 输出计算结果subplot(221),histfit(tsmat(:,1),title(open) % 做开盘价直方图subplot(222),histfit(tsmat(:,2),title(high) % 做最高价直方图subplot(223),histfit(tsmat(:,3),title(low) % 做最低价直方图subplot(224),histfit(tsmat(:,4),title(close) % 做收盘价直方图,表2.5 IBM公司股票偏度与峰度.,由于正态分布的偏度与峰度都应等于零，从表1.5可知IBM公司股票各指标均不服从正态分布.上述数据的直方图（图1.1）也验证了这一点.,图2.1 IBM公司股票直方图,2.1.2 样本数据可视化,1.可视化数据可视化是指数据的图形表示。借助几何图形可形象说明数据的特征与分布情况。常用的图形有条形图、直方图、盒图、阶梯图和火柴棒图等.（1）条形图. 条形图是用宽度相同的直线条的高低或长短来表示统计指标数值的大小.条形图根据表现资料的内容可分为单式条形图、复式条形图和结构条形图.单式条形图反映统计对象随某一因素变化而改变的情况.复式条形图可以反映统计对象随两个因素变动而变动的情况.结构条形图则反映不同统计对象内部结构的变化情况.,在MATLAB中，绘制条形图命令bar，调用格式 bar(X) bar(x,Y)作样本数据X的条形图； x的元素在横坐标轴上按从小到大排列，作Y和x对应的条形图.,（2）直方图.将观测数据的取值范围分为若干个区间, 计算落在每个区间的频数或频率.在每个区间上画一个矩形, 以估计总体的概率密度.在MATLAB中，绘制直方图命令hist，调用格式 hist(x,n)%作数据x的直方图，其中n表示分组的个数，缺省时n=10 h,stats = cdfplot(x),%作数据x的经验分布函数图，stats给出数据的最大值、最小值、中位数、平均值和标准差.附加有正态密度曲线的直方图命令histfit，调用格式 histfit(X)%X为样本数据向量，返回直方图和正态曲线. histfit(X,nbins)% nbins指定bar的个数，缺省为X中数据个数的平方根.,（3）盒图.盒图是由五个数值点组成：最小值，下四分位数，中位数，上四分位数，最大值.中间的盒子是从Q1延伸到Q3，盒子里的直线标示出中位数的位置，盒子两端有直线往外延伸到最小数与最大数.,在MATLAB中，绘制盒图命令boxplot，调用格式 boxplot(X)%产生矩阵X的每一列的盒图和“须”图，“须”是从盒的尾部延伸出来，并表示盒外数据长度的线，如果“须”的外面没有数据，则在“须”的底部有一个点.,（4）阶梯图命令stairs，调用格式 stairs(x) % 作数据x的阶梯图,（5）火柴棒图命令stem，调用格式 stem(x) % 作数据x的火柴棒图,例2.1.5随机生成150个服从标准正态分布随机数，将这些数据作为样本数据，分别作出样本数据的柱形图、直方图、阶梯图、火柴棒图等图形。,解：x = random(normal,0,1,1,150); %产生服从标准正态分布随机数150个bar(x) %作柱形图（图2.2）hist(x,20) %作直方图（图2.3）stairs(x) %作阶梯图（图2.4）stem(x) %作火柴棒图（图2.5）,图2.2柱形图图2.3直方图,图2.4 阶梯图图2.5 火柴棒图,2. 二维与三维数据可视化,（1）散点图命令scatter与scatter3，调用格式 scatter(x,y)其中x是横坐标，y 是纵坐标，输出平面散点图。 scatter3(x,y,z)其中x ,y,z分别是横、纵、竖坐标向量，输出空间散点图,（2）曲面图命令mesh与surf，调用格式 mesh(X,Y,Z) 或surf(X,Y,Z)其中Z是对应(X,Y)处的函数值Z=f(X,Y) ，X,Y是由命令meshgrid生成的数据点矩阵，即X,Y=meshgrid(x,y)，输入向量x为xoy平面上矩形定义域的矩形分割线在x轴上的坐标，向量y为xoy平面上矩形定义域的矩形分割线在y轴上的坐标.矩阵X为xoy平面上矩形定义域的矩形分割点的横坐标值矩阵，X的每一行是向量x，且X的行数等于y的维数；矩阵Y为xoy平面上矩形定义域的矩形分割点的纵坐标值矩阵，Y的每一列是向量y，且Y的列数等于x的维数.,例2.1.6对作二维正态分布随机数的散点图,解：随机生成服从二维正态分布的数据的命令mvnrnd，调用格式 X=mvnrnd(mu,sigma,n)其中mu是均值向量，sigma是协方差矩阵，n是数据个数，输出X是和协方差矩阵同阶的随机数据矩阵.,clearmu = 2 3; %输入均值向量sa = 1 1.5; 1.5 3; %输入协方差矩阵r = mvnrnd(mu,sa,100); %生成n=100的样本数据scatter(r(:,1),r(:,2),*); %作样本数据平面散点图,%绘制密度曲面figure(2)v=sqrt(3)/2; %输入相关系数x=-1:0.05:5; %横坐标的取值向量y=-2:0.05:8; %纵坐标的取值向量X,Y=meshgrid(x,y); %生成网格点T= (X-mu(1).2/sa(1,1)-2*v/sqrt(sa(1,1)* sa(2,2)*(X-mu(1).*(Y-mu(2)+(Y-mu(2).2/sa(2,2);%计算密度函数值Z=1/(2*pi)/sqrt(det(sa)*exp(-1/2/(1-3/4)*T); mesh(X,Y,Z) %绘制曲面,图 1.6样本数据的散点图图 1.7样本数据的密度曲面图,由图形1.6.可以看出，散点图位于平面上的一个椭圆状区域内，不同的相关系数对应的椭圆状区域形状不同，相关系数越接近与1，椭圆越扁长，可以利用这一图形特征初步说明数据是否来自正态总体.,设总体服从正态分布N(,2)，来自总体的样本为x1,x2,xn，其次序统计量，则平面上n个点,3. QQ图,的散点图称为样本QQ图，其中-1(.)为标准正态分布函数的反函数.,可以证明，若样本确是来自正态总体, 则散点在直线附近，即QQ图大致呈现一条直线形状。当样本来自其它分布总体时，样本QQ图将是弯曲的.这样，利用QQ图可以直观地作正态性检验，即若QQ图近似一条直线时，则可认为样本数据来自正态总体.,在MATLAB中，作正态分布QQ图命令normplot，调用格式： normplot(X)其中输入X为向量时，显示正态分布QQ图；当X为矩阵，则显示每一列的正态分布概率图形.,作威布尔分布的QQ图命令weibplot，调用格式： weibplot(X)其中，输入X为向量时，显示威布尔(Weibull) 分布QQ图；若X为矩阵，则显示每一列的威布尔概率图形.,如果数据点基本散布在直线上，则表明数据服从该分布，否则拒绝该分布.,例2.1.7 对于例2.1.6模拟的样本数据r，分别作出两个分量的QQ图，从QQ图检验各分量是否服从正态分布.,解：subplot(121),normplot(r(:,1), %分量x的QQ图 subplot(122),normplot(r(:,2), %分量y的QQ图,图 1.8 两个分量的正态分布qq图,上一节中的数据直方图与QQ图等能直观初略描述数据的分布，本节进一步研究如何判定数据是否服从正态分布的问题。若不服从正态分布，那么又可能服从怎样的分布.,2.2 数据分布及检验,2.2.1 一元数据分布检验,1.经验分布函数,设来自总体X的样本为x1,x2,xn，对于任意实数x,定义函数,（2.2.1）,称为经验分布函数.,1933年，格里汶科(Glivenko)证明了以下的结果: 对于任一实数x, 当n时Fn(x)以概率1一致收敛于分布函数, 即,这一结论表明：对于任一实数x，当n充分大时 F(x)Fn(x) (2.2.2)因此可用经验分布函数来近似代替F(x)，这一点也是由样本推断总体的最基本理论依据之一.,在MATLAB中，作经验（累积）分布函数图形命令cdfplot，调用格式：cdfplot(X) %作样本X的经验分布函数图形,h = cdfplot(X) %h表示曲线的环柄h,stats = cdfplot(X) %stats表示样本最小、大值、均值、中值与标准差,例2.2.1 生成服从标准正态分布的50个样本点，作出样本的经验分布函数图，并与理论分布函数比较.,解：%生成服从标准正态分布的50个样本点X=normrnd (0,1,50,1); h,stats=cdfplot(X); %作样本的经验分布函数图hold on%作理论分布函数图 plot(-3:0.01:3, normcdf(-3:0.01:3,0,1), r),输出结果：h =3.0013stats = min: -1.8740 %样本最小值 max: 1.6924 %最大值 mean: 0.0565 %平均值 median: 0.1032 %中间值 std: 0.7559 %样本标准差,图1.9 标准正态分及其50个样本点的经验分布函数图,2.总体分布的正态性检验,进行参数估计和假设检验时，通常总是假定总体服从正态分布，虽然在许多情况下这个假定是合理的，但是当要以此为前提进行重要的参数估计或假设检验，或者人们对它有较大怀疑的时候，就确有必要对这个假设进行检验，进行总体正态性检验的方法有很多种，以下针对MATLAB统计工具箱中提供的程序，简单介绍几种方法.,（1）Jarque-Bera检验Jarque-Bera检验简称JB检验，它是利用正态分布的偏度g1和峰度g2，构造一个包含g1，g2且自由度为2的卡方分布统计量JB，即,（2.2.3）,对于显著性水平，当JB统计量小于分布的分位数时接受H0，即认为总体服从正态分布；否则拒绝H0，即认为总体不服从正态分布.这个检验适用于大样本，当样本容量n较小时需慎用.,在MATLAB中，JB检验命令jbtest，调用格式 H,P,JBSTAT,CV = jbtest(X,alpha),其中alpha是检验水平，通常取0.05，0.01，缺省默认为0.05，若h=0，则无法拒绝正态分布；若h=1，则拒绝正态分布.,（2）Kolmogorov-Smirnov检验,Kolmogorov-Smirnov检验简称KS检验，它是通过样本的经验分布函数与给定分布函数的比较，推断该样本是否来自给定分布函数的总体.设给定分布函数为G(x)，构造统计量,（2.2.4）,即两个分布函数之差的最大值，对于假设H0：总体服从给定的分布G(x)，及给定的，根据Dn的极限分布确定统计量关于是否接受H0的数量界限.,因为这个检验需要给定G(x)，所以当用于正态性检验时只能做标准正态检验，即H0：总体服从标准正态分布.,在Matlab中，KS检验命令kstest，调用格式h = kstest(x)h = kstest(x,cdf)h,p,ksstat,cv = kstest(x,cdf,alpha),把向量x中的值与标准正态分布进行比较并返回假设检验结果h.如果h=0表示不能拒绝原假设，即不能拒绝服从正太分布.假设的显著水平默认值是0.05.cdf是一个两列矩阵，矩阵的第一列包含可能的x值，第二列式假设累积分布函数G(x)的值，在可能的情况下，cdf的第一列应包含x中的值，如果第一类没有，则用插值的方法近似.指定显著水平alpha,返回p值，K-S检验统计量Ksstat；截断值cv.,（3）Lilliefors检验,Lilliefors检验是改进K-S检验并用于一般的正态性检验，原假设H0：总体服从正态分布N(,2)，其中,2由样本均值和方差估计.,该检验的MATLAB命令lillietest，调用格式 H,P,LSTAT,CV = lillietest(X,alpha),显著性水平alpha在0.01和0.2之间，缺省时为0.05.输出P为接受假设的概率值， LSTAT为测试统计量的值，CV为是否拒绝原假设的临界值.H为测试结果，若H=0，则无法拒绝X是服从正态分布的；若H=1，则可以否定X服从正态分布.,2.2.2 多维数据的特征值与分布检验,1.多维数据的数字特征,设总体为p维向量G=(X1,X2,Xp)，从中抽取样本容量为n的样本，第i个样本观测值为Xi=(xi1,xi2,xip)(i=1,2,n)记,(2.2.5),称X为样本数据矩阵.,为了方便起见，将X的第j个列向量记为,(1) 样本均值向量.,记Xj的观测值（即X中的第j列）的均值为,(2.2.6),称为p元样本均值向量.,(2) 样本协方差矩阵,(2.2.7),称Sjk为样本数据矩阵X的第j列与第k列的协方差.,(2.2.8),称S为样本协方差矩阵.,显然，Xj的方差为Sjj，即,(2.2.9),(3)样本相关系数矩阵,X的第j列与第k列的相关系数记为,又记,(2.2.10),称R为样本相关系数矩阵.,不难验证，样本相关系数矩阵与样本协方差矩阵存在如下关系：,（2.2.11）,其中，,（4）样本标准化矩阵,令,称 (2.2.13)为样本矩阵X的标准化矩阵.,(2.2.12),（5）R矩阵,X的第j列与第k列的R系数定义为,(2.2.14),其中,称矩阵(xjk)pp为矩阵X的R矩阵，记为R(X)，即,（2.2.15）,由定义（2.2.14）式，显然 |rjk|1,可以证明 R(x*)=R即X的标准化矩阵的R矩阵等于其相关系数矩阵.,在MATLAB中，计算样本协方差矩阵命令为cov，调用格式 S=cov(X),当X为向量时, S表示X的方差；当X为矩阵时,S为X的协方差矩阵，即S的对角线元素是X每列的方差,S的第i行第j列元素为X的第i列和第j列的协方差值.,计算样本相关系数矩阵命令为corrcoef ，调用格式 R= corrcoef (X),其中X为样本矩阵，输出R的对角线元是1，R的第i行第j列元为X的第i列和第j列的相关系数.,计算X的标准化矩阵命令为zscore, 调用格式 Z= zscore (X)其中X为样本矩阵，输出Z是标准化矩阵。,MATLAB中没有计算R矩阵的命令，因此根据R矩阵的定义，可编写计算R矩阵的程序如下:,X=data; %输入样本数据矩阵Xfor i=1: size(X,2)for j=1: size(X,2)RX(i,j)=2*dot(X(:,i),X(:,j)./sum(X(:,i).2)+ sum(X(:,j).2); endendRX %输出R（X）,2. 多维正态分布的概念与性质,设p元总体的密度函数为：,（2.2.15）,则称X服从p维正态分布，记为XN(,)，其中,称为总体均值向量，称为总体协方差矩阵.,多维正态分布具有如下性质：,(1) 多维正态分布的边缘分布服从正态分布，但反之不真；,(2) 正态随机向量的线性函数仍然服从正态分布.,若XNp(,)，A为sp阶常数矩阵，d为s维常数向量，则,即多维正态分布在线性变换下仍然服从多维正态分布.,(3)正态分布的随机向量间相互独立与不相关等价.,对于来自总体且由（2.1.19）式表示的样本数据矩阵X，怎样检验其是否是来自于多维正态总体呢？一般可按照以下QQ图检验方法，具体的过程如下：,(2) 计算样品点X(t)到的马氏平方距离,(1) 由样品数据矩阵计算样品均值向量和协方差矩阵,(3) 对上述马氏平方距离从小到大排序,(4) 计算及，其中满足,(5) 以马氏平方距离为横坐标，2分位数为纵坐标做n个点的平面散点图，即得到分布的Q-Q图.,(6)若点散布在过原点，斜率为1的直线上. 接受数据来自p元正态分布总体的假设；否则拒绝正态分布假设.,以上QQ图检验方法的matlab程序实现如下。X=data;N,p=size(X); %X的行数及列数 d=mahal(X,X); % 计算马氏距离d1=sort(d); % 从小到大排序pt=1:N-0.5/N; % 计算分位数x2=chi2inv(pt,p); % 计算2plot(d1,x2,*,0:m,0:m,-r) % 作图,m是正整数,例2.2.2为了研究某种疾病，对一批人同时检测4项指标脂蛋白(X1)，甘油三酯(X2)，脂蛋白(X3)，前脂蛋白(X4).该数据是否服从四维正态分布？表2.6.doc,解：首先将表2.6中数据粘帖到MATLAB软件的编辑窗口，用A表示,B=A(:,1:4);A(:,5:8);A(:,9:12);d=mahal(B,B); % 计算马氏距离d1=sort(d); % 从小到大排序 pt=1:60-0.5/60; % 计算分位数x2=chi2inv(pt,4); % 计算卡方plot(d1,x2,*,0:12,0:12,-r) % 作图,图 2.14四项检测指标数据的正态检验图,从图2.14可以看出，数据点基本落在直线上，故无法拒绝该数据服从四维正态分布.,3. 多维数据的多个总体协方差矩阵的相等性检验,(1) 两个总体协方差矩阵相等的检验设从两个总体分别抽取样本容量为n1,n2的两个样本，样本的协方差矩阵分别为s1,s2，那么在两总体协方差矩阵相等时，其总体的协方差矩阵的估计为：,若检验两个总体的协方差矩阵相等，则假设检验：,检验统计量：,其中|.|表示行列式，p是向量的维数，tr表示矩阵的迹.对给定的，查卡方分布表得到临界值,若Qi 则接受H0，否则拒绝H0.,设有k个p元总体，抽取样本容量为ni的k个样本，其样本的协方差矩阵为Si(i=1,k)，检验假设如下,至少有一对不相等,在H0成立时，统计量,其中,f=p(p+1)(k-1)/2为自由度.,对给定的，计算概率p，若p 则拒绝H0.,(2) 多个总体协方差矩阵相等的检验,例2.3.1 检验表2.6三总体协方差矩阵是否相等(=0.1),解：首先输入数据,A=data; G1=A(:,1:4);G2=A(:,5:8);G3=A(:,9:12);n=60;k=3;p=4;f=p*(p+1)*(k-1)/2；d=(2*p2+3*p-1)*(k+1)/(6*(p+1)*(n-k);s1=cov(G1);s2=cov(G2);s3=cov(G3);s=19*(s1+s2+s3)/57;M=(n-k)*log(det(s)-19*(log(det(s1)+log(det(s2)+log(det(s3);T=(1-d)*M % 统计量p=1-chi2cdf(T,f) % 卡方分布概率,由于p=0.43740.1,故知三个总体协方差矩阵相等.,2.3 数据变换,2.3.1 数据属性变换,在解决经济问题综合评价时，评价指标通常分为效益型、成本型、适度型等类型，效益型指标值越大越好、成本型指标值越小越好、适度型指标值既不能太大也不能太小为好.一般说来，对问题进行综合评价，必须统一评价指标的属性，进行指标的无量纲化处理.常见的处理方法有极差变换、线性比例变换、样本标准化变换等方法.,我们用I1,I2,I3分别表示效益型、成本型、适度型指标，对于原始指标矩阵可以建立以下矩阵,（1）极差效益型矩阵，其变换公式为,（2.3.1）,其中 j为第j项指标的适度数值.,其中行为样品列是指标,指标经过变换后，均有0bij 1，且各指标下最好结果的属性值=1，最坏结果的属性值=0.指标变换前后的属性值成比例.,（2）极差成本型矩阵，其变换公式为,（2.3.2）,其中 j为第j项指标的适度数值.,指标经过变换后，均有0bij 1，且各指标下最差结果的属性值=1，最好结果的属性值=0.指标变换前后的属性值成比例.,（3）优属度效益型矩阵，其变换公式为,（2.3.3）,其中 j为第j项指标的适度数值.,（4）比值成本型矩阵，其变换公式为,（2.3.4）,其中 j为第j项指标的适度数值.,2.压缩变换模糊化,利用MATLAB软件中的模糊数学工具箱，可以直接调用以下函数实现数据转换：,表2.7模糊工具箱隶属度函数,2.3.2 Boxcox变换,当数据在左边或右边有长尾巴，或很不对称时，有时需要对数据进行变换以符合非参数(或参数)统计推断方法的某些条件.其中最常用的一种方法就是box-cox变换,(2.3.5),在MATLAB中，上述变换的命令如下： t,l=boxcox(x)其中 x是原始数据，t是变换以后的数据，l是变换公式中参数的数值.,例2.3.1淮河流域包括河南、安徽、江苏、山东4省份，1952-1991年因水灾造成的流域成灾面积数据如表2.8所示，应用boxcox变换考察数据的正态分布特性。,表2.8 淮河流域成灾面积（单位：106hm2）,a=data; % 输入原始数据b,t=boxcox(a(:,1); % 对第一列数据boxcox变换normplot(a(:,1) % 原始数据qq图normplot(b(:,1) % 变换数据qq图,图 2.15淮河流域成灾面积(原始数据)qq图,解：将淮河流域1951-1991年的成灾面积数据作为矩阵a输入，程序如下:,图 2.16变换数据qq图,可以看出原始数据（图 2.15）没有分布在直线上，而变换后的数据（图 2.16）基本上落在直线上.,图 2.15原始数据qq图,下面给出变换前后数据的经验分布函数图及相应的统计量,lot(sort(a(:,1),normcdf(sa,-r) % 原始经验分布与正态分布函数cdfplot(b(:,1); % 变换数据经验分布hold on;plot(sort(a(:,1),normcdf(sb,-r) % 变换数据经验分布与正态分布,作出图形如图2.17,2.18所示，原始数据与正态分布分布函数相差甚远，变换后的数据比较接近.,图2.17 原始数据经验分布图, 图2.18 变换数据经验分布图,2.3.3 基于数据变换的综合评价模型,例2.3.2 为了全面了解10家上市公司的绩效，用x1表示每股净收益；x2-净资产收益率；x3-主营业务收益率；x4-主营业务增长率；x5-净资产增长率；x6-总资产增长率.数据如表2.9所示，试对上市公司进行综合评价.,表2.9 10家上市公司的统计数据,解：设原始数据矩阵为,（1）利用变异系数法建立权向量,其中，sj与分别为第j项指标的标准差和均值.,w=( 0.1350,0.6988,0.0149,0.0617,0.0625,0.0270),（2）建立理想方案,其中,（3）建立相对偏差模糊矩阵,其中,利用MATLAB软件得到,（4）建立综合评价模型,评价准则为：若DiDj，则第i家上市公司的业绩优于第j家上市公司的业绩.,经计算可得各公司排名如下表2.10所示：,表2.10 10家上市公司的综合排名,说明：如果采取不同的方法建立权向量，或者不同的方法得到相对优属度矩阵，评价的结果会有所不同.,MATLAB程序如下：,clear% 输入原始数据X=0.021 26.806 57.311 -39.815 -39.815 8.819-0.142 -7.179 16.335 -11.359 -4.766 -4.626-0.737 -62.417 7.359 -18.378 -19.165 12.2890.32 7.276 17.372 39.506 19.858 41.9390.16 4.82 38.323 37.113 23.744 34.0630.351 11.842 23.118 14.725 11.616 9.5160.243 5.173 17.515 14.435 123.101 79.489-0.19 -10.912 8.236 -2.746 -7.439 -10.5020.173 7.543 23.978 17.122 21.318 25.7010.367 9.352 16.048 55.621 27.861 18.918;,m=mean(X); % 计算各指标均值s=std(X); % 计算各指标标准差v=s./abs(m); % 计算各指标变异系数w=v/sum(v); % 计算各指标权重% 相对偏差矩阵R=abs(X-ones(10,1)*max(X)./ones(10,1)*range(X); D=R*w; % 计算综合评价值F1,t1=sort(D); % 综合评价值排序F2,t2=sort(t1) % t2输出上市公司排名,谢谢！THANK YOU！,

注意事项

本文（数据分析方法MATLAB实现ppt课件.ppt）为本站会员（牧羊曲112）主动上传，三一办公仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三一办公（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。