R语言基础培训第二讲常用统计分析课件.ppt
《R语言基础培训第二讲常用统计分析课件.ppt》由会员分享,可在线阅读,更多相关《R语言基础培训第二讲常用统计分析课件.ppt(57页珍藏版)》请在三一办公上搜索。
1、基于R的基本统计分析,基于R的基本统计分析,内容提要,描述统计频数表分析方差分析t检验,卡方检验线性回归相关分析,内容提要描述统计卡方检验,描述分析(Descriptive statistics),描述统计就是把数据集所包含的信息加以简要地概况,如计算数据的数字特征、制作频数表和频数图等等,用所获得的统计量和图表来描述数据集所反映的特征和规律,使得研究的问题更加简单、直观。 描述性统计主要包括反映数据集中趋势的特征值(比如平均数、中位数、众数、分位数)、数据离散程度的特征值(比如方差、标准差、值域、变异系数)和数据分布形态的特征值(比如偏度、峰度)。,描述分析(Descriptive stat
2、istics)描,标准差(std.dev)和标准误(SE.mean),标准差(std.dev),真实均值,SE,样本均值,当样本含量 n 足够大时,标准差趋向稳定;而标准误随n的增大而减小,甚至趋于0 。,标准差(std.dev)和标准误(SE.mean)标准差(s,标准差(std.dev)和标准误(SE.mean),比如,某学校共有500名学生,现在要通过抽取样本量为30的一个样本,来推断学生的身高。这时可以依据抽取的样本信息,计算出样本的均值与标准差。如果我们抽取的不是一个样本,而是10个样本,每个样本30人,那么每个样本都可以计算出均值,这样就会有10个均值。也就是形成了一个10个数字的
3、数列,然后计算这10个数字的标准差,此时的标准差就是标准误。但是,在实际抽样中我们不可能抽取10个样本。所以,标准误就由样本标准差除以样本量来表示。当然,这样的结论也不是随心所欲,而是经过了统计学家的严密证明的。 SE.mean= std.dev / n1/2,标准差(std.dev)和标准误(SE.mean),在实际的应用中,标准差主要有两点作用,一是统计量样本离散程度的表征;二是用来对样本进行标准化处理,即样本观察值减去样本均值,然后除以标准差,这样就变成了标准正态分布。标准误的作用主要是用来做区间估计,常用的估计区间是均值加减n倍的标准误(例如95%的置信区间是:均值+1.96*SE),
4、标准差(std.dev)和标准误(SE.mean),在实际的应用中,标准差主要有两点作用,一是统计量样本离散程度,95% CI:假设上面这个随机抽样估计学生身高的例子,抽样100次,每次抽10个学生测量身高,均值估计值及标准误为 152cm12cm。但有时需要表示为估计量的95%的置信区间152cm-1.96*12cm,152cm+1.96*12cm。可以解释为,如果从再从总体中抽样100次(每次抽样10个),产生100个平均值,这100个平均值将有95次落在152cm-1.96*12cm,152cm+1.96*12cm这个范围内,5次落在这个范围外,如果抽样次数越多,这个推断越准确。这个来源
5、于中心极限定理的应用:任何分布(总体)抽样n次,每次抽样的和符合正态分布。通俗一点说, 不管是学校的学生身高是怎么分布, 每次随机抽取10个求和, 抽取n次,这n个身高总和是符合正态分布的。平均身高为身高总和除于10,所以平均身高也是正态分布的。正态分布双尾95%的分界点所对应的值刚好是1.96。,95% CI:,R语言基础培训第二讲常用统计分析课件,R语言基础培训第二讲常用统计分析课件,峰度(Kurtosis),峰度(Kurtosis)是描述某变量所有取值分布形态陡缓程度的统计量。 它是和正态分布相比较的。Kurtosis=0 与正态分布的陡缓程度相同。Kurtosis0 比正态分布的高峰更
6、加陡峭尖顶Kurtosis0 比正态分布的高峰来得平台平顶计算公式:,峰度(Kurtosis)峰度(Kurtosis)是描述某变量,偏度(Skewness),偏度(Skewness)是描述某变量分布偏离正态对称性的统计量。 Skewness=0 分布形态与正态分布偏度相同 Skewness0 正偏差数值较大,为正偏或右偏。长尾巴拖在右边Skewness0 负偏差数值较大,为负偏或左偏。长尾巴拖在左边计算公式:Skewness 越大,分布形态偏移程度越大,偏度(Skewness)偏度(Skewness)是描述某变量,频数表(Frequency table)分析,频数表分析是对数据集按数据范围分成
7、若干区间,即分成若干组,求出每组组中值,各组数据用组中值代替,计算各组数据的频数,并作出频数表。,频数表(Frequency table)分析 频,频数表分析例子,summary(oats$yield)# 计算频数A - table(cut(oats$yield, breaks = 40 + 20 * (0:7) round(prop.table(A) * 100,2) # 计算频数比例# 画频数表hist(oats$yield, # breaks = 7, xlim = c(40,180), xlab = yield, main = Frequency chart of yield),频数表
8、分析例子summary(oats$yield),方差分析ANOVA,方差分析是一种在若干组能相互比较的试验数据中,把产生变异的原因加以区分的方法与技术,其主要用途是研究外界因素或试验条件的改变对试验结果影响是否显著。类型:单因素方差分析(One-way ANOVA)、双因素方差分析(Two-way ANOVA) 。方差分析的基本模型是线性模型,并假设随机变量是独立、正态和等方差的。方差分析是根据平方和的加和原理,利用 F 检验,进而判断试验因素对试验结果的影响是否显著。,方差分析ANOVA方差分析是一种在若干组能相互比较的试验数据,单因素方差分析,单因素方差分析,# Tukey HSD 方法
9、#install.packages(multcomp)library(multcomp)tuk - glht(fit, linfct = mcp(Treat = Tukey)summary(tuk) # standard displaytuk.cld - cld(tuk) # letter-based displayopar - par(mai=c(1,1,1.5,1)plot(tuk.cld)par(opar),# Tukey HSD 方法 #,双因素(无重复)方差分析,双因素(无重复)方差分析,多重比较,library(agricolae)# 对A因素在a = 0.05水平上进行多重比较(
10、duncan.test(fit, A, alpha = 0.05) # 对B因素进行多重比较(duncan.test(fit, B, alpha = 0.05),多重比较library(agricolae),重复试验的双因素方差分析,重复试验的双因素方差分析,协方差分析(analysis of covariance),协方差分析是关于如何调节协变量对因变量的影响效应,从而更加有效地分析实验处理效应的一种统计技术,也是对实验进行统计控制的一种综合方差分析和回归分析的方法。 当研究者知道有些协变量会影响因变量,却不能够控制和不感兴趣时,则可以在实验处理前予以观测,然后在统计时运用协方差分析来处理。
11、将协变量对因变量的影响从自变量中分离出去,可以进一步提高实验精确度和统计检验灵敏度。例如林木生长量与肥料的关系,施肥条件可以人工控制,但林木初始苗高(协变量)是难以控制的,通过协方差分析,消除初始苗高的影响,使得生长量在一致的基础上进行方差分析。,协方差分析(analysis of covariance),单因素协方差分析,单因素协方差分析,双因素协方差分析,【例子 4.4.2】为研究某杨树一年生生长与 N 肥、K 肥及初始苗高的关系,采用正交试验设计,共设置了 18 个样地的栽培试验,试验因子与水平及测量结果如表 4-13所示。试分析 N 肥、K 肥及初始苗高对生长量的影响。,双因素协方差分
12、析【例子 4.4.2】为研究某杨树一年生生长与,t检验,在实际工作中,经常需要判断两个样本平均数是否差异,以了解两样本所属的两个总体平均数是否相同。检验方法可以使用 t 检验。 对于两个样本平均数差异显著性检验,可分为非配对设计和配对设计。,t检验 在实际工作中,经常需要判断两个样本平均,3.5.1 单样本检验,【例子 4.5.1】 杨树某无性系试验林造林 5 年后,调查树高生长量,随机抽取 32 棵树,调查结果如下表 4-16 所示。有一无性系 B5 的 5 年树龄树高 = 8 m。试分析该试验林的树高与 B5 有无显著差异?,3.5.1 单样本检验【例子 4.5.1】 杨树某无性系,25,
13、18个草地种在放牧和不放牧样方中的生物量(kg/m2),放牧对所研究草地物种生物量的影响是否显著?,成对双样本 t 检验,25 种类放牧不放牧Asclepias syriaca0.0,卡方检验( 2 test),卡方检验是参照卡方分配来计算概率和临界值的统计检验,是用途很广的一种假设检验方法。 分析原理: (1) 建立零假说(Null Hypothesis),即认为观测值与理论值的差异是由于随机误差所致; (2) 确定数据间的实际差异,即求出 2 值; (3) 如卡方值大于某特定概率标准(即显著性差异)下的理论值,则拒绝零假说,即实测值与理论值的差异在该显著性水平下是显著的。,卡方检验( 2
14、test)卡方检验是参照卡方分配来计算概率,卡方检验,27,freq = c(22,21,22,27,22,36)probs = c(1,1,1,1,1,1)/6 chisq.test(freq,p=probs) chisq.test(freq,p=probs) Chi-squared test for given probabilitiesdata: freqX-squared = 6.7, df = 5, p-value = 0.2423,卡方检验27freq = c(22,21,22,27,22,卡方检验,28,x = c(100,110,80,55,14)probs = c(29, 2
15、1, 17, 17, 16)/100 chisq.test(x,p=probs) chisq.test(x,p=probs) Chi-squared test for given probabilitiesdata: xX-squared = 55, df = 4, p-value = 2.685e-11,卡方检验28x = c(100,110,80,55,14),卡方检验(列联表),29,yesbelt = c(12813,647,359,42)nobelt = c(65963,4000,2642,303)chisq.test(data.frame(yesbelt,nobelt) chisq
16、.test(data.frame(yesbelt,nobelt) Pearsons Chi-squared testdata: data.frame(yesbelt, nobelt)X-squared = 59, df = 3, p-value = 8.61e-13,卡方检验(列联表)29yesbelt = c(12813,6,练习四,以数据stu.data.csv为例,试对体重做频数分析。请分析身高是否符合正态分布?试分析性别对体重有无影响。问题4:请检验总体平均体重与60kg有无显著差异?男生和女生的平均体重有无显著差异?问题5:男女生比例是否符合 1.2 : 1.0?,练习四以数据stu
17、.data.csv为例,,练习四 答案,df-read.csv(file=stu.data.csv,header=T)#问题1A - table(cut(df$weight, breaks = 40 + 15 * (0:7) round(prop.table(A) * 100,2) # 计算频数比例hist(df$weight, breaks = 7, xlim = c(40,140), xlab = weight, main = Frequency chart of weight)#问题2shapiro.test(df$height)#问题3fit-aov(weight Sex,data=d
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语言 基础 培训 第二 常用 统计分析 课件
链接地址:https://www.31ppt.com/p-1287926.html