二节抽样分布课件.ppt
第二节 抽样分布,生物统计学的主要任务就是研究总体和样本的关系:, 从样本到总体, 从总体到样本,目的就是通过样本来推断总体,目的就是研究样本统计量的分布及其与原总体的关系,从特殊到一般,,从一般到特殊,,统计推断,抽样分布,抽样分布是统计推断的基础,研究抽样分布的目的就是为了更好地进行统计推断,并能正确地理解统计推断的结论,第二节 抽样分布生物统计学的主要任务就是研究总体和样本的关,1. 抽样分布的概念,样本平均数 和样本方差S2是描述样本特征的两个最重要的统计量,总体平均数和总体方差2是描述总体特征的两个最重要的参数,因此,研究总体和样本的关系,实际就是研究:,S2,2, 就总体而言,和2都是常量, 从总体中随机地抽取若干个体所组成的样本,即使每次抽取的样本容量都相等,每一个样本所得到的样本平均数也不可能都相等,同时也不可能就等于总体平均数,样本统计量将随样本的不同而有所不同,因而样本统计量也是随机变量,也有其概率分布,样本统计量的概率分布称为抽样分布(sampling distribution),样本统计量与总体参数之间的差异称为抽样误差 (sampling error),1. 抽样分布的概念样本平均数 和样本方差S2是描述,从总体中抽取样本的过程称为抽样(sampling),抽样分为复置抽样和不复置抽样两种:,复置抽样是指每次抽出一个个体后,这个个体应返回原总体,不复置抽样是指每次抽出的个体不返回原总体, 对于无限总体,或者样本容量n与总体容量N相比很小时,返回与否都可保证每个个体被抽到的机会相等,复置抽样等同于不复置抽样, 对于有限总体,应该采取复置抽样,否则各个体被抽到的机会就不相等,在实际操作中均为不复置抽样,在理论研究中则以复置抽样为主,从总体中抽取样本的过程称为抽样(sampling) 抽样分为,2. 样本平均数的抽样分布,2.1 样本平均数抽样分布的概念,从总体容量为N的总体中进行抽样,如果每个样本的样本容量均为n,将所有这样的样本都抽出来,并计算出每一个样本的平均数,新总体(即样本平均数抽样总体)中,样本平均数的个数即总体容量为:,Nn,原来的那个总体,称为原总体,由样本平均数组成的分布称为样本平均数抽样分布,如果原总体的平均数为,标准差为,那么样本平均数抽样总体:,平均数为:,标准差为:,称为样本平均数抽样总体的标准误差,简称为标准误(standard error),由样本平均数组成的新总体,就称为样本平均数抽样总体,2. 样本平均数的抽样分布2.1 样本平均数抽样分布的概念从,标准误表示平均数抽样误差的大小,反映样本平均数与新总体平均数之间的离散程度, 标准差表示的是原总体中原始数据与原总体平均数的关系, 标准误表示的是从原总体中抽取的样本平均数与样本平均数抽样总体平均数的关系,研究总体与样本的关系就转化成了讨论原总体与样本平均数抽样总体的关系:,例6:设有一总体,总体容量为N=3,观测值分别为2、4、6,以样本容量n=2对该总体进行复置抽样,证明:,(1),(2),标准误表示平均数抽样误差的大小,反映样本平均数与新总体平均数,原总体的总体平均数为:,(1),以样本容量n = 2对该总体进行复置抽样,则样本平均数抽样总体为:,样本平均数抽样总体的总体容量为:,样本平均数抽样总体的总体平均数为:,原总体的总体平均数为:(1)以样本容量n = 2对该总体进行,(2),原总体的总体标准差为:,样本平均数抽样总体的总体标准差为:,(2)原总体的总体标准差为:样本平均数抽样总体的总体标准差为,2.2 样本平均数抽样分布的特点,(1)样本平均数抽样总体的总体平均数与原总体的总体平均数相等,,因此,可用代替,(2)样本平均数抽样总体的方差与原总体的方差的关系为,(3)当随机变量xN(,2)时,样本平均数,当随机变量x不呈正态分布或分布未知时,只要样本容量n不断增大(或足够大),则样本平均数的分布逐渐趋向于正态分布,且平均数为,,方差为,(4)样本平均数是总体平均数的无偏估计量;样本方差是总体方差的无偏估计量;但样本标准差不是总体标准差的无偏估计量,中心极限定理,2.2 样本平均数抽样分布的特点(1)样本平均数抽样总体的总,2.3 与 的关系,(1),(2)表示原总体中各观测值的离散程度,表示样本平均数抽样总体中各样本平均数的离散程度,(3)是总体中各观测值变异程度的度量值,是样本平均数抽样误差的度量值,是用来衡量样本平均数代表总体平均数的代表程度的,(4)称为标准差,用Sd表示,称为标准误,用Se表示,2.3 与 的关系(1) (2)表示原总体中各观测值,3. 样本平均数差数的抽样分布,假设有这样两个总体:,总体1,总体2,N1,N2,从以上两个总体中独立地抽取样本容量分别为n1和n2的样本,可得:,继续进行抽样,,最终可分别得到:,如果将这两组样本平均数配成差数:,则可得到差数:,3. 样本平均数差数的抽样分布假设有这样两个总体: 总体1,由这些样本平均数的差数所组成的新总体称为样本平均数差数抽样总体,由这些样本平均数的差数形成的分布称为样本平均数差数抽样分布,样本平均数差数的抽样分布有两个参数:,平均数:,方差:,当原总体服从正态分布或非正态分布,只要所抽样本容量较大(n130,n230),样本平均数差数的抽样分布就可认为是正态分布,样本平均数差数的抽样总体与原来的两个总体的关系为:,样本平均数差数标准误,度量样本平均数差数的抽样误差的大小,由这些样本平均数的差数所组成的新总体称为样本平均数差数抽样总,4. 标准误的作用,(1)衡量样本平均数间的变异程度,(2)推断总体平均数的可能范围, 标准误大,说明样本平均数间的变异程度大,用样本平均数来估计总体平均数的效果差,样本平均数的代表性弱, 在通常情况下,可以用样本标准误来估计总体标准误, 可用样本平均数标准误来估计总体平均数的可能范围,表示原始数据的变异程度,是用样本平均数来估计总体平均数的可能范围,4. 标准误的作用(1)衡量样本平均数间的变异程度(2)推断,(3)估计总体平均数的置信区间,研究抽样和抽样分布的目的,就是希望用样本统计量来估计总体参数, 一般情况下,不可能精确地估计出总体参数的具体值, 只能在一定的概率(1-)保证下,估计出总体参数所在的范围,点估计,区间估计,置信区间的上下限,分别称为置信上限和置信下限,置信区间的长度称为置信距,保证概率(1-)又称为置信度或置信系数,在(1-)概率保证下总体平均数的置信区间公式为:,1-=95%:,1-=99%:,(3)估计总体平均数的置信区间研究抽样和抽样分布的目的,就是,5. t-分布,5.1 t-分布的定义,正态分布的标准化公式为:,根据公式可以计算出随机变量x在某一区间内出现的概率:,对于总体方差2已知的总体,根据标准正态分布可以知道样本平均数在某一区间内出现的概率,公式为:,5. t-分布5.1 t-分布的定义正态分布的标准化公式为:,假如2未知,而且样本容量又比较小(n30)时:,标准化公式可变换为:,t统计量组成的分布,就称为t分布(t distribution),不再服从标准正态分布,t分布是一组曲线,自由度不同,曲线不同,但均以y轴为对称,t分布只有一个参数,即自由度 df,t分布的平均数和标准差为:,0 (df 1),(df 2),服从t-分布,假如2未知,而且样本容量又比较小(n30)时: 标准化公,5.2 t-分布的特点,(1)t分布为对称分布,关于t = 0对称;只有一个峰,峰值在t = 0处;与标准正态分布曲线相比,t分布曲线顶部略低,两尾部稍高而平,(2)t分布曲线受自由度df 的影响,自由度越小,离散程度越大,(3) t分布的极限是正态分布。df越大,t分布越趋近于标准正态分布,当n 30时,t分布与标准正态分布的区别很小;n 100时,t分布基本与标准正态分布相同;n时,t 分布与标准正态分布完全一致,5.2 t-分布的特点(1)t分布为对称分布,关于t = 0,5.3 t-分布的概率计算,附表4给出了t分布的两尾临界值,当左尾和右尾的概率之和为(每侧为 /2)时,t分布在横坐标上的临界值的绝对值,记为t,例7:根据附表4查出相应的临界 t值 :(1)df =9,=0.05; (2)df =9,=0.01,5.3 t-分布的概率计算附表4给出了t分布的两尾临界值 当,从一个已知平均数为,方差为2的正态总体中,进行独立地抽样,可获得随机变量x,则其标准离差:, N(0,1),如果连续进行n次独立抽样,可得n个标准正态离差ui,对这n个独立的标准正态离差ui进行平方求和就得到一个新的统计量2:,6. 2-分布,6.1 2-分布的定义,从一个已知平均数为,方差为2的正态总体中,进行独立地抽样,如果用样本进行计算:,由这些2值所组成的一个分布,就称之为2分布(2 distribution),如果用样本进行计算:由这些2值所组成的一个分布,就称之为,6.2 2-分布的特点,(1)2分布的取值范围为0,+),无负值,(2)2分布的平均数为:,方差为:,(3)2分布的形状决定于自由度df,当df =1时,曲线呈反 J 形,随着df 的增大,曲线渐趋对称,当df 30时,向正态分布渐近,(4)2还可以定义为理论次数与观察次数间的符合程度,O 观察次数,E 理论次数,6.2 2-分布的特点(1)2分布的取值范围为0,+,6.3 2-分布的概率计算,附表3给出了2分布的右尾临界值,当右尾概率为时,2分布在横坐标上的临界值的绝对值,记为,例8:根据附表3查出相应的右尾临界2值 : (1)df =9,=0.05;(2)df =9,=0.01,如果计算左尾概率为 时2分布的临界值,只需查右尾概率为1- 的右尾临界值即可,6.3 2-分布的概率计算附表3给出了2分布的右尾临界值,7. F-分布,7.1 F-分布的定义,从一个方差2的正态总体中独立地抽取样本容量分别为n1、n2的两个样本,这两个样本的方差分别为:,则有:,这两个2变量除以各自的自由度后的比值为:,由一系列F值所构成的分布称为F分布(F distribution),F F(df1,df2),7. F-分布7.1 F-分布的定义从一个方差2的正态总体,7.2 F-分布的特点,(1)F分布密度曲线是随自由度df1、df2的变化而变化的一簇偏态曲线,其形状随着df1、df2的增大逐渐趋于对称;,(2)F分布的取值范围是(0,+),其平均数:,7.2 F-分布的特点(1)F分布密度曲线是随自由度df1、,7.3 F-分布的概率计算,附表5给出了F分布的右尾临界值,当右尾概率为时,2分布在横坐标上的临界值的绝对值,记为F,例9:根据附表5查出相应的右尾临界F值 : (1)df1 =4, df2 =20,=0.05;(2) df1 =4, df2 =20,=0.01,F0.01(4,20) = 4.43,F0.05(4,20) = 2.87,7.3 F-分布的概率计算附表5给出了F分布的右尾临界值 当,