研究生统计学讲义第2讲第3章定量资料的统计描述.ppt
第3章 定量资料的统计描述,一、正态分布(P36),生物学中所关心的很多连续变量来自钟形曲线,或者能够转换为这类曲线见图,曲线族的特性是由Abraham de Moivre(1667-1754),Pierre Simon,Marquis de Laplace(1749-1827)和Karl Friedrich Gauss(1777-1855)发展起来的事实上,这个分布有时称为高斯分布(Gaussian distribution),尽管形容词“正常的”(normal)首先由Sir Francis Galton 在1877年创造,更多的是形式上使用,1.正态随机变量的概率密度函数的形式为,这个密度函数肯定不简单!是个坏消息为求累积概率分布,需要对f(x)积分但是不存在f(x)的不定积分那就意味着人们不能利用微积分基本公式去计算所需要的积分于是用一些精确值近似代替曲线下的实际面积,造出正态分布表于是用一些精确值近似代替曲线下的实际面积,造出正态分布表,下图给出具有平均值和标准差正态密度函数图,注意它有几个特点,这个正态密度函数f(x)关于平均值x=对称(点划垂线)称为位置参数,在曲线下和+之间面积近似总面积的2/3(68%),简而言之,它在平均值的一个标准差内这是在图 中点划垂线之间的面积在曲线下的两个标准差内,即2和+2之间面积近似为总的95%(这是在图中实垂线之间的面积),在曲线下的三个标准差内,即3和+3之间面积近似为总的99%,幸运的是,这个曲线族能够转换为标准正态曲线(standard normal curve),其平均值为0,标准差为1曲线下的面积已经被制成表格,通常称为u表(u tables),u表能用来确定任何正态分布的CDF值(累积分布函数值即P224附表3),2标准正态分布的概率密度函数和分布函数,(x)(3.3),标准正态变量u与一般均数为,标准差为的正态变量x的关系是:,标准正态变量u=(x)/的值称为标准正态(离)差。,标准正态变量的分布函数记为(u):,因为任何正态随机变量都能被标准化,标准正态的累积分布函数能用来求概率(正态曲线下的面积),参见附表3,补例1 设智商测验得分是具有均数100,标准差为10的正态分布(一些新颖的智商测验声称具有这些参数)问:,1随机抽取一个在90以下得分的概率是多少?,解:我们必须求P(X 90)=F(90),得分用下图左边阴影部分表示,没有复杂的数学知识就无法计算F(90),左边=100,=10,X90 右边=0,=1,u1.0,注意刻度不同,现在我们把 X 转换为标准正态变量,因为=100,=10,所以,因此90分能够用平均值下的1个标准差表示,见图右图,P(X 90)=P(u 1.0),附表3从u=0.00到u=4.99以增量0.01编成标准正态分布的CDF表,沿着表的左边按所给u的一个小数找到u,再从表的顶端找到u的第二位小数,在表内主要部分,行列交叉处就是所给u值的概率用表3求P(X 90)=P(Z1.0),找到标记为1.0的行,标记为0.0的列,其交叉处的概率就是0.1587,所以小于90分的概率就是0.1587,2得分在90到115分之间的概率是多少?,解:我们希望找出下图左图阴影部分的面积,=0.9332-0.1587=0.7745,3得分为125分或更高的概率是多少?,解:要求P(X125),见下图,=1-0.9938=0.0062,只有0.62%的得分将是125或更高,图3.16左边=100,=10,X125 右边=0,=1,u2.5,注意刻度不同,补例2 假设女高血压患者舒张压大约集中在100mmHg,标准差是16mmHg,血压是正态分布求:,1P(X124)3P(96X104)4求x,使P(Xx)=0.95,解1:使用,特别当X=90时,,于是查表3有,P(X90)=P(u0.625)=F(0.625)0.2660,解2:当X=124时,,P(X124)=P(Z1.5)=1F(1.5)=10.9332=0.0668,解3:求P(96X104),两者同时进行转换,解4:求x,使P(Xx)=0.95,我们只不过是简单地反向操作,首先求 u 的值使P(Uu)=0.95,从附表3查得,u=1.645,现在用转换方程求x,从而 x=100+1.645(16)=126.32,这意味着这些女高血压患者舒张压低于126.32mmHg大约有95%,例3.1 查标准正态分布 u 界值表,得双侧u0.05/2=1.96,它表示标准正态变量的取值小于-1.96的概率等于u值大于1.96的概率等于0.025,反之,u值大于-1.96而小于1.96的概率,即u的绝对值小于1.96的概率,等于120.025=0.95,记为:,P(u1.96)=0.025,P(-1.96 u1.96)=0.95,以(u)=0.05查附表3的横标目和纵标目得出的数值取绝对值,得双侧0.10界值u0.10/2单侧0.05界值u0.051.65,它表示:,P(u1.65)=0.05,P(u-1.65)=P(u1.65)=0.95,由正态分布的对称性可知,标准正态曲线下对称于0的区间面积相等:,(u)=1(u),(u/2)=1(u/2),,例3.2 若已知健康女大学生血清总蛋白含量服从正态分布,均数=73.8g/L,标准差=3.9g/L,试估计168名健康女大学生血清总蛋白含量在72.078.6g/L范围内的人数。,x1=72.0g/L时,u1=(72.073.8)/3.9=0.46,x2=78.6g/L时,u2=(78.673.8)/3.9=1.23,2.查标准正态曲线下面积表(附表3):u=0.46时,在表的左侧找到-0.4,在表的上方找到0.06,二者相交处为0.3228,标准正态曲线下,横轴上u值小于0.46的面积为(0.46)=P(U0.46)=32.28,即标准正态变量u值小于0.46的概率为32.28;同样查得u=1.23时,标准正态曲线下,横轴上u值小于1.23的面积为(1.23)=P(U1.23)=0.8907,即u值小于1.23的概率为89.07。,3.u值在0.461.23范围内的面积为(1.23)(0.46)=0.89070.32280.5679,即血清蛋白含量在72.0g/L78.6g/L范围内的概率为56.79。,4.168名健康女大学生血清总蛋白含量在72.078.6g/L范围的人数为16856.79%=95人,3.正态分布的应用,1.很多抽样分布如 2 分布、t 分布以正态分布为基础。,2.正态分布的规律 运用于区间估计和假设检验如 t 检验、方差分析及直线相关分析的计算公式等。,3.二项分布、Poisson分布、t 分布的极限分布是正态分布。,4.许多医药指标如人体的某些正常生理值都可看作和近似看作服从正态分布。医药科研中很多资料如毒物致死量、食物中毒潜伏期,剂量一效应曲线、正常成人血铅含量等,虽不服从正态分布,但经变量变换(如取对数)后则服从正态分布或近似正态分布,可按正态分布规律来处理,4.统计推断和计算公式的推导中经常应用到的正态变量性质,(1)相互独立的正态变量的代数和仍为正态变量;常数与正态变量的乘积仍为正态变量;正态变量的线性函数仍为正态变量。,(2)正态变量的和(差)的均数等于正态变量均数的和(差);常数与正态变量乘积的均数等于常数与变量均数的乘积。,(3)常数与正态变量乘积的方差等于常数的平方与正态变量方差的乘积;相互独立的正态变量的和或差的方差都等于正态变量方差的和。,5.对数正态分布 若随机变量X不服从正态分布,但X的对数(如lnX、lgX等)服从正态分布,则称X服从对数正态分布。,二、频数分布表和频数分布图(P29),将观察值分组,统计各组段的频数,按一定的顺序排列成表,称为频数分布表(frequency distribution table)。将频数分布表绘制成图,称为频数分布图(frequency graph)。编制频数分布表,绘制频数分布图,都是整理资料的基本方法,可以提示资料的分布特征和分布类型,表达原始数据中所包含各种数量的分布规律,且便于发现特异值。有简捷方法计算 平均值和标准差。,例3.1 测得148名正常人糖(mmol/L)结果如下,试求频数分布图。,493 488 483 490 454 435 412 437 334 495 417 500 517 503 534 546 416 520,用途:1.揭示资料的分布特征和分布类型。,2.便于进一步计算统计指标和分析处理。,3.便于发现某些特大或特小的特异值。,图像:对称、左偏、右偏。特征:集中、离散,三、集中趋势的描述(P30),1、均数,总体平均数:例如一个小的理论总体,其全体取值为:1,6,4,5,6,3,8,7,可以表示为:,X1=1,X2=6,X3=4,X4=5,X5=6,X6=3,X7=8,X8=7(1.1),使用字母 N 来表示总体容量,上面理论总体容量为N=8总体平均数(念作“mu”)就是,公式1.1 作为总体平均数的代数缩写式就是:,公式1.2 作为样本平均数的代数缩写式就是:,从(1.1)所示总体1,6,4,5,6,3,8,7,可以抽出56种容量为3的样本,但是只有四个样本均数与总体均数相同,即:,样本 和 X3,X6,X7 4+3+8 5X2,X3,X4 6+4+5 5X5,X3,X4 6+4+5 5X8,X6,X4 7+3+5 5,要使每一个样本均数是的无偏估计取决于样本所含的值以及样本容量的实际大小我们期望全部可能平均值的平均值与总体参数相等事实上,这个定义就是总体均数的一个无偏估计,如果把 56 种容量为3的样本均数求出来,再求平均数的平均数,就得到平均值5,也即是总体均数,记得吗?总体数量太大以至难以完全进行调查,于是依靠单一样本去估计或逼近总体特征,2.中位数M(Median),中位数M是排序观察值的中间值当一组数据按照从小到大的顺序排列起来时,值的深度d=(n+1)/2,是它相对于极端值(末端)所在的位置它不是由全部观察值综合计算出来的,而是由居中位置的观察值所决定,因此它不受个别特小或特大的观察值的影响,应用范围较广。,例3.4 10例由伤寒杆菌引起伤寒的患者潜伏期为6,8,11,12,14,15,16,21,29,34天,求中位数。因n=10,为偶数,居中的两个位次为10/2=5,1+10/2=6,这两个位次上的观察值为14和15,(14+15)/2=14.5(天),即为所求的中位数。,例3.5 治愈9名脾虚泄泻患儿所用天数分别为2,3,3,3,4,5,6,9,16,求中位数。因n=9,是奇数,居中的第(9+1)/2=5位次上的观察值为4,即中位数为4天。,3.百分位数Px(percentile),一种位置指标。将n个观察值从小到大依次排列,再把它分成100等份,对应于第x%位次上的数值即第x百分位数,记为Px。用途:1.可用百分位数求医学参考值范围(reference ranges)或个体容许区间等统计量的界限,2.在假设检验中用作拒绝或接受检验假设的临界值。,众数(MODE),指在一个数据集合里面出现次数最多的数.,小结,定量资料中,无论平均数是连续的还是离散的,它都是一个有目的的度量无论一个变量是否能够排序(包括定量资料),都能够计算出中位数,样本中位数所含信息比样本平均数要少,这是因为中位数仅仅使用了排序信息而没有使用它的测量值信息,但是中位数可以抵消离群值的影响极端值或离群值(outliers)能够大大地影响样本平均数,然而它们对中位数的影响却很小,考虑例3.6,平均数为=16.6,而中位数=14.5cm 假如说X7被错误地记为160而不是16的话,平均数会变成30cm,而中位数仍然保持=14.5cm,四、离散趋势的描述(P33),例 下表给出两个金枪鱼样本的重量(kg)度量,怎样表现样本之间的差异呢?,样本1 8.9 9.6 11.2 9.4 9.9 10.9 10.4 11.0 9.7,两样本还具有相同的众数:9.9,样本之间的差异是以观测值的分散或离散来表示,第一个样本比第二个样本包含有更多的信息,较之第二个样本,第一个样本的观测值更集中于平均值,因此我们需要描述分散或离差的度量来反映其差别,样本2 3.1 17.0 9.9 5.1 18.0 3.8 10.0 2.9 21.2,极差(range),一组资料中最大值与最小值之差就称为极差:极差=XnX1 总体极差=XNX1 这里X n和X1称为样本极差限度(sample range limits),两样本的极差都反映出一些分散差别,但是极差是一个相当粗略的估计,因为它只使用了两个数据点,某些时候还取决于样本容量随样本容量的增大,我们会预料到最大的和最小的观测值会变得更加极端,即便总体极差不变,但是样本极差也会变大样本最大值最小值与总体最大最小值不同所以样本极差低估了总体极差,属于有偏估计,方差(variance),称xi=Xi 为离差(deviates),有时为正(观测值大于平均值),有时为负(观测值小于平均值)。,例:设有一组数据 X1=2,X2=3,X3=1,X4=8,X5=6,=4,偏差为:X1=2,X2=1,X3=3,X4=4,X5=2,那么偏差之和为0,即,结论:观测值的离差之和为0。,公式 校正的平方和公式就是样本方差:,回到例,样本1的方差是0.641kg2,样本2 的方差是49.851 kg2,这反映出在样本2里有较大的分散(spread)度,样本方差是总体方差的无偏估计。,在一定容量的样本里面,“无偏“即意味着全部可能的s2 值的平均值等于总体方差值2,公式 校正的平方和公式是,未校正的平方和,校正条件,公式 利用样本平方和的计算公式计算样本方差的公式是,返回例中的样本2,Xi=92,Xi2=1318.92,n=9,,所以,标准差SD(Standard Deviation),公式 更自然的公式是标准差,它是方差的正平方根:,再考虑金枪鱼的例,样本1:s1=0.80kg,样本2:s2=7.06kg,清楚反映了第2个样本比第1个样本变异较大,五、容许区间与参考值范围,1.容许区间(tolerance limit of population)指的是总体中绝大多数个体观察值可能出现的范围。严格说,总体中100(1)%个体某种指标的所在范围,称为该指标的100(1)%容许区间;(1)称为个体某指标值落入该范围的可信度。,1)双侧(1)容许区间 按标准正态变量值的分布规律P(u/2 u u/2)=1有,从而P(u/2 x+u/2)=1,(3.27),(u/2,+u/2),缩写为u/2(u/2表示双侧u界值),2)单侧(1)容许区间 按标准正态变量值的分布规律:P(uu)=1,P(u u)=1,P(x u)=1,P(x+u)=1(3.29),x(u),或x(+u)(3.30),2.医学参考值范围,常用大样本资料的 和s分别作为和的估计值,所计算的容许区间常称为参考值范围。医学参考值范围通常是从对健康人的观察中取得,故亦称医学正常值范围,简称正常值范围。如95正常值范围的含义是指样本中有95的个体其测定值在所求的范围之内。,双侧95%的界限值为:1.96s。(3.32),单侧95%的上限值为:+1.6 45s。(3.33),单侧95%的下限值为:-1.6 45s。(3.34),例3.13 若已知健康女大学生血清总蛋白含量服从正态分布,例3.3资料n=100,已算出=73.708 g/L,s=3.8759 g/L,求健康女大学生血清总蛋白含量的95%参考值范围。,因血清总蛋白含量不宜过高或过低,本例宜用双侧公式:,1.96s=73.7081.963.8759=(66.1,81.3)g/L,2制定医学参考值范围的注意事项,1)样本含量;2)结合专业;3)根据研究要求和资料的特点;3)根据使用该参考值的目的考虑,第七节 离群值的取舍,测量数据中有时会有个别过大或过小,远离均数的可疑数值,这种数值称为极端值或离群值(outlier)。极端值有两种可能:可能是测量值随机波动的极度表现,即极值,它虽然与其余数据相差较远,但仍然是处于统计上所允许的合理误差范围之内。极端值也可能是与其余数据不属于同一总体的离群值。如果在测量数据中混有离群值,必然会歪曲试验结果,此时若能将该值舍弃,将使结果更符合客观实际情况。但若将本来不是离群的测量值主观地作为离群值舍弃,虽然得到分散很小、精度很高的结果,而此结果实质上是虚假的,并不是客观情况的真实反映。所以怎样正确取舍极端值,是实践中经常碰到的问题。,1.计量资料判断离群值计量资料判断极端值是否离群值,常用3s法、格拉布斯法、Q检验法、间距法。.X3s法X3s法适用于正态分布资料,且样本含量较大(n60)。以 xj 代表极端值,按正态分布理论,离群值与平均值差的绝对值大于2的概率为1/20,大于3的概率仅约为1/370。按小概率原理,小概率事件在一次测量中实际是不可能发生的,2与3可认为统计上允许的合理误差范围,而超出此范围的数据则为极端值。因此,有人将3作为界值,根据绝对值是否大于3作出判断。也就是说,可以根据X3sX3s范围内是否包括xj作出判断:当xj在X3sX3s范围之外时可舍弃,在此范围之内时保留。,.格鲁布斯法格拉布斯法(Grubbs)适用于正态分布资料。xj 表示极端值,计算包括极端值 xj 在内的测量值与s,总体均数及标准差已知或未知时计算统计量 T 的绝对值公式分别为,T 或T(3-38),按第一类错误概率和样本含量n,查如表3-6所示的格鲁布斯T,n 界值表,与 T 的绝对值比较。若T界值T,n,则不能判极端值xi为离群值。若TT,n,则可判 xj 为离群值,应舍去。,.Q检验法,Q 检验法不要求资料服从正态分布。数据从小到大排列为x1,x2,x3,xn1,xn。极差Rxnx1,最小值 x1 或最大值 xn 为极端值时计算统计量 Q 的公式分别为,表3-6 检验正态分布资料极端值用格拉布斯T,n界值表,Q 或 Q,若Q1/3,则极端值是离群值,应舍弃。,【例3.15】研究人工培植人参中M物质的含量(g),76次测得的结果为40.0,41.0,41.5,41.6,41.6,41.9,42.5,43.5,43.8,44.2,60.2。检查无误,对于最小值 x140.0 和最大值 x7660.2,找不出原因。在下面条件下,分别判断是否为离群值。,若已知M物质的含量服从正态分布,计算得到X42.16g,S2.150g;,解:若用 X3 S法计算,则可以得到(X3S,X3S)(35.7,48.6)最小值x140.0在此范围内不是局外值。最大值x7660.2在范围外是离群值,应舍弃。若用格鲁布斯法计算,对于最小值x140.0,计算得到,T=1.01,查表3-6,和未知时T0.05,502.96,T0.05,603.03,|T|T0.05,76,x140.0不是离群值。对最大值x7660.2,类似计算得到T|8.39T0.05,76,故60.2是离群值,应舍弃。,若不知人参中M物质的含量是否服从正态分布。,极差Rxnx160.240.020.2,对于最小值x140.0,计算得到,Q=0.0495,由于Q1/3,故x140.0不是离群值,应保留。对于最大值x7660.2,类似计算得到Q0.79211/3,故60.2是离群值,应舍弃。,.间距法间距法不要求正态分布资料。由上、下四分位数P75、P25,计算四分位间距QR,即QRP75P25(3-40)计算上或下截界值CU、CL的公式分别为CU P752QR 或CL P252QR(3-41)大于上截界值CU或小于下截界值CL的数据可视为局外值,应舍弃。,【例3.16】某资料的上四分位数P75205(109/L),下四分位数P25141(109/L)。若该资料中有找不出任何原因的小数据 80,大数据378,能否剔除?解:计算 QR20514164(109/L)CL14126413,CU205264333小数据80下截界值CL,不是离群值。大数据378上截界值CU是离群值,应剔除。,3注意 周密实验设计下获得的实验数据一般都不应随意舍弃,否则实验结果的真实性将受破坏。如果有个别数据过份地偏大偏小,也不要在未查清原因的情况下盲目将其舍弃。,在一组观测值中极端值总是少数,一般认为一侧舍弃的数据不应多于2个。若个数较多,则应从实验要素的选择及实验方法、条件等方面查找原因。不论可否剔除极端值,应在论文的适当地方进行说明,以正确反映事物的全貌。对待极端值务必进行认真分析,有时极端值可能导致意外发现。,