SAS假设检验(公选)ppt课件.pptx
《SAS假设检验(公选)ppt课件.pptx》由会员分享,可在线阅读,更多相关《SAS假设检验(公选)ppt课件.pptx(80页珍藏版)》请在三一办公上搜索。
1、第4章 假设检验,4.1参数估计与假设检验的基本概念,4.1.1 参数估计4.1.2 假设检验,4.1.1参数估计,从总体中抽取样本,以样本统计量(即样本数字特征)作为未知总体参数(即总体数字特征)的估计量,并通过对样本观察值分析来估计和推断,即根据样本来推断总体分布的未知参数,称为参数估计(parameter estimation)。参数估计有两种基本形式:点估计和区间估计。,1.点估计点估计是用样本统计量估计总体分布中所含的未知参数。因为样本统计量为数轴上某一点,估计的结果也以一个点的数值表示,所以称为点估计。通常它们是总体的某个特征值,如均值、方差和相关系数等。点估计问题就是要构造一个只
2、依赖于样本的量,作为未知参数或未知参数的函数的估计值。2.区间估计区间估计是通过从总体中抽取的样本,根据一定的正确度与精确度的要求,以一定可靠程度推断总体参数所在的区间范围,作为总体分布的未知参数或参数的函数的真值所在范围的估计。,区间估计是从点估计值和抽样标准误出发,按给定的概率值建立包含待估计参数的区间。其中这个给定的概率值称为置信度或置信水平(confidence level),指总体参数值落在样本统计值某一区内的概率。这个建立起来的包含待估计参数的区间称为置信区间(confidence interval),表示总体参数的可能范围。置信区间是指在某一置信水平下,样本统计值与总体参数值间误
3、差范围。,置信区间,双侧:,置信区间,置信下限,置信上限,置信水平或置信度(称为显著性水平),单侧:,或,置信区间,正态分布(Normal Distribution),实践中,许多频率分布形状如此: 中间高, 两侧低、对称,计算中心,正态分布的实例,如果数据来自正态分布总体,则:68%的值落在距均值1个标准差的范围之内95%的值落在距均值2个标准差的范围之内99%的值落在距均值3个标准差的范围之内,例如:由12岁女孩体重组成一个总体,这个总体服从均值为39公斤,标准差4.5公斤,则: 68%的值落在34.543.5公斤之间 95%的值落在3048公斤之间 99%的值落在25.552.5公斤之间
4、,正态分布描述落入不同范围的概率.例如,近似地有(“3 ”原则):68%的数据落入以均值为中心一倍标准差的范围内;95%的数据落入以均值为中心两倍标准差的范围内;99%的数据落入以均值为中心三倍标准差的范围内; 若样本均值的分布为正态的,当构造置信区间时就可用正态分布给定的概率,这一概率对应于置信水平.所以,构造一个95%的置信区间,这个置信区间就有95%的概率包括总体均值.95%就为置信水平.,小概率事件的含义,小概率事件的含义:发生概率一般不超过5的事件,即事件在一次试验中几乎不可能发生,4.1.2假设检验,假设检验是抽样推断中的一项重要内容,是一种基本的统计推断形式,用来判断样本与样本、
5、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。其基本原理是先依据原资料对总体的参数或分布作出某种假设,然后再利用样本对总体提供的信息,用适当的统计方法计算出有关检验的统计量,依据一定的概率原则,以较小的风险来对假设作出应该拒绝或不拒绝推断。,对总体参数进行假设检验时,首先要给定一个原假设H0,H0是关于总体参数的表述,与此同时存在一个与H0相对立的备择假设H1,H0与H1有且仅有一个成立;经过一次抽样,若发生了小概率事件(通常把概率小于0.05的事件称为小概率事件),可以依据“小概率事件在一次实验中几乎不可能发生”的理由,怀疑原假设不真,作出拒绝原假设H0,接受H1的决定;反
6、之,若小概率事件没有发生,就没有理由拒绝H0,从而应作出拒绝H1的决定。,1.假设检验的基本思想,根据问题确立原假设H0和备择假设H1;确定一个显著性水平,它是衡量稀有性(小概率事件)的标准,常取为0.05;选定合适的检验用统计量W(通常在原假设中相等成立时,W的分布是已知的),根据W的分布及的值,确定H0的拒绝域。由样本观测值计算出统计量W的观测值W0,如果W0落入H0的拒绝域,则拒绝H0;否则,不能拒绝原假设H0。,2.假设检验的基本步骤,概率p值是SAS系统根据样本分布和样本数据自动计算一个实际的显著性水平,在SAS系统中进行假设检验,p值提供了一个直观的判断依据:当p,说明实际计算的显
7、著性水平比理论的显著性水平更小,小概率事件在一次实验中发生的几率更小(比理论设定的概率还小)。此时在p值的显著性水平条件下,如果还能够观测到小概率事件发生,则说明假设更加不可靠,应拒绝原假设;当p,在p值的显著性水平条件下,如果能够观测到小概率事件发生,则说明假设可能没有任何问题。因为观测一个概率比较大的事件,其发生的可能性本来就比较大,故不能对假设做出否定的判断。,3. 假设检验的数学模型T检验是用于两组数据均数间差异的显著性检验,亦称学生T检验(Students t test),主要用于样本含量较小(例如n30),总体标准差未知的正态分布资料。 T检验是用于小样本(样本容量小于30)的两个
8、平均值差异程度的检验方法。它是用T分布理论来推断差异发生的概率,从而判定两个平均数的差异是否显著。,(1)单样本T检验单样本T检验所采用的方法是,抽取一组数据作为一个样本,对样本均数与理论上的总体均数的差别作显著性检验,检验所测得的一组连续资料是否抽样于均数已知的总体。根据大量实验调查的结果或一般规律,可以得到某一事物的平均数,以此作总体均数看待。t统计量的计算公式如下:如果用程序方法作单样本T检验,可在SAS系统中采用MEANS过程,计算出观察与总体均数的差值,再对该差值的均数进行T 检验。,(2)两配对样本的T检验两配对样本T检验包括两种情况,即配对资料差异的显著性检验(配对比较检验)和同
9、一组对象实验前后差异的显著性检验(自身对照比较)。t统计量的计算公式如下:SAS系统中采用MEANS过程,计算出两样本观察的差值(如服药前、后实验数据的差值),再对该差值的均数进行T检验。,(3)两独立样本的T检验两独立样本的t检验是指对两样本均数的差异作显著性检验。作为两样本均数差异比较的两组数据,它是分别取自两个独立样本,没有成对关系,两组的数据个数可以相等,也可以不一样。t统计量的计算公式如下:方差齐时, 方差不齐时,方差齐性检验用F检验,F统计量的计算公式如下:,SAS系统中采用TTEST过程,先作方差齐性检验(f检验)。当方差齐性时,f应接近于1,f特大或特小都是极端情况。同时f的分
10、布不依赖未知参数。统计上称它为自由度(n1-1,n2-1)的分布。n1,n2分别对应独立样本的两个样本个数。利用f分布,对统计量f的观测值可以得到它的p值并由此对原假设作出判断。然后根据方差齐(equal)和方差不齐(unequal)输出t值和p值以及基本统计量。,4. TTEST过程T过程是专门进行T检验的SAS过程,它可以做单样本均值的T检验、两配对样本均值的T检验和两独立样本均值的T检验。其语句格式为:PROC TTEST ; CLASS 分组变量名; PAIRED 变量名列表; BY 分组变量名; VAR 分析变量名列表; FREQ 变量名列表; WEIGHT 变量名列表; RUN;,
11、语句说明:(1)PROC TTEST语句后可跟的选项及其表示的含义如表4-1所示。,(2)CLASS语句所指定的分组变量是用来进行组间比较的;(3)PAIRED语句用来指定配对t检验中要进行比较的变量对,其后所带的变量名列表一般形式及其产生的效果如表4-2所示。,(4)BY语句所指定的分组变量是用来将数据分为若干个更小的样本,以便SAS分别在各小样本内进行各自独立的处理;(5)VAR语句引导要检验的所有变量列表,SAS将对VAR语句所引导的所有变量分别进行组间均值比较的t检验;(6)FREQ指定作为频数的变量; (7)WEIGHT指定作为权数的变量。,4.2单样本正态总体的参数估计与假设检验,
12、4.2.1单样本的参数估计4.2.2单样本的假设检验,4.2.1单样本正态总体的参数估计,1. 单样本正态总体均值的置信区间2. 单样本正态总体比例的置信区间3. 单样本正态总体方差的置信区间,1. 单样本正态总体均值的置信区间【例4-1】 某小学要对各年级的学生健康状况进行评测,其中一项评测需要对五年级男生的平均体重进行估计,五年级男生体重的总体方差未知,现随机抽取20名男生的体重数据如表4-3所示。假定男生体重数据存放在数据集mylib.boy_w中,重量变量名为weight,求该校五年级男生的平均体重在95%置信水平下的置信区间。,(1)INSIGHT模块求单样本正态总体均值的置信区间,
13、其步骤如下:打开数据集mylib.boy_w。选择菜单“分析”“分布”命令。 在“分布”对话框中选择变量weight作为分析变量填入“Y” 框中。单击“输出”按钮,打开输出结果控制对话框,在“描述性统计量”选项中选择“基本置信区间” 。单击“确定”按钮,返回到“分布”对话框,再次单击“确定”按钮,得到置信区间的输出结果如图4-3所示。,图中显示了在95%的置信水平下,分别对均值、标准偏差和方差这3个总体参数进行参数估计的结果。估计值是对总体参数的点估计,置信下限和置信上限是对总体参数的区间估计。因此结果表明,该校五年级男生平均体重在95%置信水平下的置信区间为33.4435kg38.4565k
14、g。此外,在结果输出窗口中,还可以选择“表”菜单重新设置不同的置信水平。,(2)用分析家模块求单样本正态总体均值的置信区间,其步骤如下:在“分析家”模块中打开数据集mylib.boy_w。选择菜单“统计”“假设检验”“均值的单样本t-检验”命令。在“One Sample t-test for a Mean”对话框中,选择变量weight作为分析变量。单击“tests”按钮,在对话框的“Confidence Intervals”选项卡中可以设置置信区间类型和置信水平。单击“OK”按钮,返回到“One Sample t-test for a Mean”对话框,再次单击“OK”按钮,得到置信区间的输
15、出结果如图4-8所示。,结果表明,单样本均值的95%置信区间的下限是33.44,上限是38.46,因此该校五年级男生平均体重在95%置信水平下的置信区间为33.44kg38.46kg。,(3)用TTEST过程步求单样本正态总体均值的置信区间,程序如下:proc ttest data=mylib.boy_w alpha=0.05;/*alpha =0.05用于指定显著性水平为0.05*/var weight;run;,2. 单样本正态总体比例的置信区间【例4-2】 某大学要对其1000名在校学生的月支出进行调查,随机抽取16名学生调查后结果如表4-4所示。设月支出数据存放于数据集mylib.ou
16、tgo中,其中月支出变量名为exp。在95%置信水平下推断该校学生月支出在1000元以上的人占有的比例。,用分析家模块求单样本正态总体比例的置信区间,步骤如下:在“分析家”模块中打开数据集mylib.outgo。根据原变量exp生成一个新的分类变量exp_recoded。选择菜单“统计”“假设检验”“比例的单样本检验”命令。在“One-Sample Test for a Proportion”对话框中,选择分析变量,设置置信区间类型和置信水平,得到输出结果如图4-13所示。,结果表明,在95%置信水平下变量exp_recoded取值为“1000”的比例的置信区间是(0.194,0.681),即
17、在95%置信水平下估计该校学生月支出在1000元以上的人所占比例在19.4%68.1%之间。,3.单样本正态总体方差的置信区间【例4-3】已知某股票在2014年3月的22个交易日的收益率如表4-5所示,求该股票收益率的方差在99%置信水平下的置信区间。设数据存放于数据集mylib.stock中,其中股票收益率变量名为yield。,用分析家模块求单样本正态总体方差的置信区间,步骤如下:在“分析家”模块中打开数据集mylib.stock。选择菜单“统计”“假设检验”“方差的单样本检验”命令。在“One-Sample Test for a Variance”对话框中选择变量yield作为分析变量。在
18、“Var=”右侧文本框中输入任意正数,单击“Intervals”按钮,设置置信水平为99%。单击“OK”按钮,返回到“One-Sample Test for a Variance”对话框,再次单击“OK”按钮,得到分析结果如图4-16所示。,结果显示,该股票收益率的方差在99%置信水平下的置信区间为(0.0005,0.0028)。,4.2.2 单样本正态总体的假设检验,1. 单样本正态总体均值的假设检验2. 单样本正态总体比例的假设检验3. 单样本正态总体方差的假设检验,1. 单样本正态总体均值的假设检验【例4-4】市质监部门对超市袋装大米的净含量准确性进行抽检,随机从几家抽取了20袋大米,每
19、袋标示的重量都是5公斤。工作人员对这些大米进行了称重测试。测试过程为:先把每袋大米连包装一起称重,记录下大米的毛重以后,再把大米倒出来,称包装袋的重量。最后根据两项称重值的差得出大米的实际净重为多少。测试结果如表4-6所示。假定大米重量数据存放在数据集mylib.dmzl中,重量变量名为weight,试从检验的样本数据出发,检验变量weight的均值与5公斤是否有显著差异。,设变量weight的均值为,根据题意作如下假设:H0:=5 H1:5(1)用INSIGHT模块对单样本正态总体均值进行假设检验,其步骤如下:在INSIGHT模块中打开数据集mylib.dmzl。选择菜单“分析”“分布”命令
20、。在“分布”对话框中选择变量weight作为分析变量。单击“确定”按钮,得到变量的描述性统计量。选择菜单“表”“位置检验”命令,在弹出的“位置检验”对话框中输入5,得到输出结果如图4-18所示。,结果显示,观测值不等于5公斤的观测有20个,其中16个观测值大于5公斤。 图中还显示出学生T检验、符号检验和符号轶检验的结果,如果分析变量是正态分布的,那么只需看T检验的结果;否则只需看符号检验的结果;而在没有具体数值,仅有两两比较大小的结果时看符号轶检验的结果。由于这三个检验的结论都是p值小于0.05,所以拒绝原假设,即总体的均值与5公斤有显著差异。,(2)用分析家模块对单样本正态总体均值进行假设检
21、验,其步骤如下:启动分析家模块,并打开数据集mylib.dmzl。选择菜单“统计”“假设检验”“均值的单样本t-检验” 命令。选择变量weight作为分析变量填入Variable框中,在假设框中设置原假设的均值Mean=5。单击“Plots”按钮,在打开的对话框中选中t distribution plot复选框。单击“OK”按钮,返回到“One-Sample t-test for a Mean”对话框,再次单击“OK”按钮,得到分析结果如图4-20所示。,结果的第一部分是变量weight的简单描述统计量。第二部分显示了原假设条件与对立假设条件,显示了t统计量的观测值为4.015,p值为0.00
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SAS 假设检验 公选 ppt 课件
链接地址:https://www.31ppt.com/p-1946941.html