描述性统计分析课件.ppt
《描述性统计分析课件.ppt》由会员分享,可在线阅读,更多相关《描述性统计分析课件.ppt(45页珍藏版)》请在三一办公上搜索。
1、描述性统计分析,武汉大学计算中心,LOGO,统计分析的基本概念,武汉大学计算中心,LOGO,进行数据分析首先应:,明确分析的目的明确分析的对象确定是否需要抽样在一些问题中,要考查整个总体往往是不可能的,因为要耗费太多的时间和资源确定需要记录的数据项目,武汉大学计算中心,LOGO,1. 总体和样本,总体(population)是所研究的指标测量值的集合。,总体,样本,抽样(sampling)是指从总体中抽取部分的做法。样本(sample)通过抽样得到的总体的一个子集。,武汉大学计算中心,LOGO,抽样方法,简单随机抽样:在抽样的过程中,任何一个样本被选中的机会都相同。利用计算机产生的随机数(对于
2、有限总体),可模拟简单随机抽样,如对学生的学号用随机数进行抽样对于无限总体不能进行标号,抽样过程不能用随机数,难于实施分层抽样:按数据的层次进行抽样。如小学生的身高,按每年级分为一个层,武汉大学计算中心,LOGO,分层抽样的优点,抽取的样本在总体中分布得更均匀,更合理个层内单位之间差异程度相对减小,使在该层内抽取的样本对该层的代表性得到提高层内成员差异小,而层间成员差异较大时,分层抽样可以提高估计的精度,武汉大学计算中心,LOGO,2. 参数和统计量,对总体概括度量值和对样本概括度量值所用的方法及名称是不同的。总体的度量值称为参数(parameters),样本的度量值称为统计量(statist
3、ics)。通常,总体参数是未知的,SAS系统给出的描述统计量适用于样本。,武汉大学计算中心,LOGO,2. 参数和统计量,参数(parameters):总体的度量值。统计量(statistics):样本的度量值。一般总体参数用希腊字母表示:均值方差标准差总体2样本Xs2s,武汉大学计算中心,LOGO,3. 自由度,自由度是某一统计量中,变量可以自由取值的个数用df表示自由度。例变量X有n个取值, df=n;若它们受到k(kn)个条件制约,则df=n-k,武汉大学计算中心,LOGO,4. 表示数据位置的统计量,均值(Mean):所有观测值的平均值。,中位数(Median或Med):用以描述数据取
4、值的中心位置。中位数的计算方法:先将数据从小到大排序,x1,x2,xn然后计算:,中位数的优点是它不受个别极端数据的影响,具有稳健性,武汉大学计算中心,LOGO,4. 表示数据位置的统计量,众数(Mode):观测值中出现最多的数。百分位数(Percentile): 描述数据分布和位置的统计量。0.5分位数就是中位数,0.75分位数和0.25分位数分别称为上、下四分位数,记为Q3和Q1。一般地,k百分位数(k-percentile),即约有k%的观测值小于它。,武汉大学计算中心,LOGO,5. 表示数据分散程度的统计量,极差(Range):数据中最大值和最小值之差。,方差(Variance)以变
5、量取值相对于均值的偏差平方平均来度量(又称均方MS)。,武汉大学计算中心,LOGO,例SAS计算样本方差的步骤,计算样本均值计算每个观测值同均值的差值把这些差值分别平方再求这些平方的和把平方和除以n-1,n为差值的个数(样本容量)假设样本值分别为10,11,12,15,均值为12,样本容量为4,方差按下式计算:s2=(10-12)2+(12-12) 2+(11-12) 2+(15-12) 2)/(4-1)=4.67,武汉大学计算中心,LOGO,5. 表示数据分散程度的统计量,标准差(Standard deviation或Std Dev):方差的开平方。标准差的量纲与原变量一致。方差和标准差所反
6、映的是数据对其均值的某种离散程度。标准差(或方差)较小的观测数据一定是比较集中在均值附近,反之则是比较离散的。变异系数(Coefficient of Variation或CV)变异系数是将标准差表示为均值的百分数,是观测数据分散性的一个度量,它在比较用不同单位测量的数据的分散性时是有用的。,武汉大学计算中心,LOGO,5. 表示数据分布形状的统计量,偏度(Skewness):描述数据对称性的指标。,在SAS中,均值对称的数据,其偏度为0;左侧更为分散的数据,其偏度为负,称为左偏;右侧更为分散的数据,其偏度为正,称为右偏。峰度(Kurtosis):描述数据向分布尾段散布的趋势,利用峰度研究数据分
7、布形状是以正态分布为标准,比较两端极端数据的分布情况,若近似于标准正态分布,峰度接近于零;尾部较正态分布更分散,则峰度为正;尾部较正态分布更集中,则峰度为负,武汉大学计算中心,LOGO,正态分布,如果数据来自正态分布总体,则:68%的值落在距均值1个标准差的范围之内95%的值落在距均值2个标准差的范围之内99%的值落在距均值3个标准差的范围之内,例如:由12岁女孩体重组成一个总体,这个总体服从均值为39公斤,标准差4.5公斤,则: 68%的值落在34.543.5公斤之间 95%的值落在3048公斤之间 99%的值落在25.552.5公斤之间,武汉大学计算中心,LOGO,概率P(probabil
8、ity) 概率是度量某随机事件发生可能性大小的一个数量。概率的取值范围在01之间。若某一事件必然不发生,P=0;某一事件必然发生,P=1概率论是数理统计的基础,统计分析的许多结论,都是建立在概率大小的基础之上的。,武汉大学计算中心,LOGO,统计的过程如下:,描述:描述样本的各主要特征推断:扩大所收集信息的使用范围,用样本的特征来推断总体的特征。,武汉大学计算中心,LOGO,例儿童体检数据如下,刘明3男0.9413.5950.4蔡行3男0.9114.250李敏4女1.3916.1551.6李涛4男1.0215.4451.9夏天4男1.0615.351郭红5女1.0115.0451.9胡月5女1
9、.0215.0752.7程彬6女1.0717.0453.7杨兵6男1.1218.0954.1刘进6男1.1418.853.5王苗苗 7女1.1619.9355.5张思凡 7女1.1518.251.4试用作描述性统计分析,武汉大学计算中心,LOGO,二、用SAS/ASSIST进行描述统计,选择解决方案/ASSIST,并在欢迎窗口中点击按钮选择Cascading Menu为新的ASSIST工作模式;选择Block Menu为ASSIST 6的菜单工作模式。选择Data Analysis/Elementary/Summary Statistics 打开数据统计分析的操作窗口 。,武汉大学计算中心,L
10、OGO,点击Table按钮,确定要操作的数据集 点击Columns按钮,确定要分析的变量点击Class按钮,确定分组变量 点击Output Table按钮可将本次分析的结果数据输出到一个数据集中作为原始数保存起来 Summary Statistic窗口的下方,确定所求的统计量 ,可以根据需要选择一项或多项,武汉大学计算中心,LOGO,所求的统计量,Number of nonmissing values 包括分析变量缺项值的观测数Number of missing values 不包括分析变量缺项值的观测数Minimum最小值Maximum最大值Range全距,极差Sum和Mean(平)均值Va
11、riance方差Standard Deviation标准差Standard error of the mean均数的标准误Coefficient of variation变异系数Skewness偏度Kurtosis峰度,武汉大学计算中心,LOGO,三、用SAS/INSIGHT进行数据描述,1. 用INSIGHT作直方图选择解决方案/分析/交互式数据分析 命令启动SAS/INSIGHT软件 确定数据所在的数据集(CLASS)选择分析 /直方图/条形图(y)项绘制某变量的柱状图/直方图 将WEIGHT选为Y 再点击确定若单独考察女生的年龄分布,可在既存的图下作如下操作 编辑/窗口/动画,在弹出的对
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 描述 统计分析 课件
链接地址:https://www.31ppt.com/p-1564403.html