研究生统计学讲义第2讲第3章定量资料的统计描述.ppt
《研究生统计学讲义第2讲第3章定量资料的统计描述.ppt》由会员分享,可在线阅读,更多相关《研究生统计学讲义第2讲第3章定量资料的统计描述.ppt(43页珍藏版)》请在三一办公上搜索。
1、第3章 定量资料的统计描述,一、正态分布(P36),生物学中所关心的很多连续变量来自钟形曲线,或者能够转换为这类曲线见图,曲线族的特性是由Abraham de Moivre(1667-1754),Pierre Simon,Marquis de Laplace(1749-1827)和Karl Friedrich Gauss(1777-1855)发展起来的事实上,这个分布有时称为高斯分布(Gaussian distribution),尽管形容词“正常的”(normal)首先由Sir Francis Galton 在1877年创造,更多的是形式上使用,1.正态随机变量的概率密度函数的形式为,这个密度
2、函数肯定不简单!是个坏消息为求累积概率分布,需要对f(x)积分但是不存在f(x)的不定积分那就意味着人们不能利用微积分基本公式去计算所需要的积分于是用一些精确值近似代替曲线下的实际面积,造出正态分布表于是用一些精确值近似代替曲线下的实际面积,造出正态分布表,下图给出具有平均值和标准差正态密度函数图,注意它有几个特点,这个正态密度函数f(x)关于平均值x=对称(点划垂线)称为位置参数,在曲线下和+之间面积近似总面积的2/3(68%),简而言之,它在平均值的一个标准差内这是在图 中点划垂线之间的面积在曲线下的两个标准差内,即2和+2之间面积近似为总的95%(这是在图中实垂线之间的面积),在曲线下的
3、三个标准差内,即3和+3之间面积近似为总的99%,幸运的是,这个曲线族能够转换为标准正态曲线(standard normal curve),其平均值为0,标准差为1曲线下的面积已经被制成表格,通常称为u表(u tables),u表能用来确定任何正态分布的CDF值(累积分布函数值即P224附表3),2标准正态分布的概率密度函数和分布函数,(x)(3.3),标准正态变量u与一般均数为,标准差为的正态变量x的关系是:,标准正态变量u=(x)/的值称为标准正态(离)差。,标准正态变量的分布函数记为(u):,因为任何正态随机变量都能被标准化,标准正态的累积分布函数能用来求概率(正态曲线下的面积),参见附
4、表3,补例1 设智商测验得分是具有均数100,标准差为10的正态分布(一些新颖的智商测验声称具有这些参数)问:,1随机抽取一个在90以下得分的概率是多少?,解:我们必须求P(X 90)=F(90),得分用下图左边阴影部分表示,没有复杂的数学知识就无法计算F(90),左边=100,=10,X90 右边=0,=1,u1.0,注意刻度不同,现在我们把 X 转换为标准正态变量,因为=100,=10,所以,因此90分能够用平均值下的1个标准差表示,见图右图,P(X 90)=P(u 1.0),附表3从u=0.00到u=4.99以增量0.01编成标准正态分布的CDF表,沿着表的左边按所给u的一个小数找到u,
5、再从表的顶端找到u的第二位小数,在表内主要部分,行列交叉处就是所给u值的概率用表3求P(X 90)=P(Z1.0),找到标记为1.0的行,标记为0.0的列,其交叉处的概率就是0.1587,所以小于90分的概率就是0.1587,2得分在90到115分之间的概率是多少?,解:我们希望找出下图左图阴影部分的面积,=0.9332-0.1587=0.7745,3得分为125分或更高的概率是多少?,解:要求P(X125),见下图,=1-0.9938=0.0062,只有0.62%的得分将是125或更高,图3.16左边=100,=10,X125 右边=0,=1,u2.5,注意刻度不同,补例2 假设女高血压患者
6、舒张压大约集中在100mmHg,标准差是16mmHg,血压是正态分布求:,1P(X124)3P(96X104)4求x,使P(Xx)=0.95,解1:使用,特别当X=90时,,于是查表3有,P(X90)=P(u0.625)=F(0.625)0.2660,解2:当X=124时,,P(X124)=P(Z1.5)=1F(1.5)=10.9332=0.0668,解3:求P(96X104),两者同时进行转换,解4:求x,使P(Xx)=0.95,我们只不过是简单地反向操作,首先求 u 的值使P(Uu)=0.95,从附表3查得,u=1.645,现在用转换方程求x,从而 x=100+1.645(16)=126.
7、32,这意味着这些女高血压患者舒张压低于126.32mmHg大约有95%,例3.1 查标准正态分布 u 界值表,得双侧u0.05/2=1.96,它表示标准正态变量的取值小于-1.96的概率等于u值大于1.96的概率等于0.025,反之,u值大于-1.96而小于1.96的概率,即u的绝对值小于1.96的概率,等于120.025=0.95,记为:,P(u1.96)=0.025,P(-1.96 u1.96)=0.95,以(u)=0.05查附表3的横标目和纵标目得出的数值取绝对值,得双侧0.10界值u0.10/2单侧0.05界值u0.051.65,它表示:,P(u1.65)=0.05,P(u-1.65
8、)=P(u1.65)=0.95,由正态分布的对称性可知,标准正态曲线下对称于0的区间面积相等:,(u)=1(u),(u/2)=1(u/2),,例3.2 若已知健康女大学生血清总蛋白含量服从正态分布,均数=73.8g/L,标准差=3.9g/L,试估计168名健康女大学生血清总蛋白含量在72.078.6g/L范围内的人数。,x1=72.0g/L时,u1=(72.073.8)/3.9=0.46,x2=78.6g/L时,u2=(78.673.8)/3.9=1.23,2.查标准正态曲线下面积表(附表3):u=0.46时,在表的左侧找到-0.4,在表的上方找到0.06,二者相交处为0.3228,标准正态曲
9、线下,横轴上u值小于0.46的面积为(0.46)=P(U0.46)=32.28,即标准正态变量u值小于0.46的概率为32.28;同样查得u=1.23时,标准正态曲线下,横轴上u值小于1.23的面积为(1.23)=P(U1.23)=0.8907,即u值小于1.23的概率为89.07。,3.u值在0.461.23范围内的面积为(1.23)(0.46)=0.89070.32280.5679,即血清蛋白含量在72.0g/L78.6g/L范围内的概率为56.79。,4.168名健康女大学生血清总蛋白含量在72.078.6g/L范围的人数为16856.79%=95人,3.正态分布的应用,1.很多抽样分布
10、如 2 分布、t 分布以正态分布为基础。,2.正态分布的规律 运用于区间估计和假设检验如 t 检验、方差分析及直线相关分析的计算公式等。,3.二项分布、Poisson分布、t 分布的极限分布是正态分布。,4.许多医药指标如人体的某些正常生理值都可看作和近似看作服从正态分布。医药科研中很多资料如毒物致死量、食物中毒潜伏期,剂量一效应曲线、正常成人血铅含量等,虽不服从正态分布,但经变量变换(如取对数)后则服从正态分布或近似正态分布,可按正态分布规律来处理,4.统计推断和计算公式的推导中经常应用到的正态变量性质,(1)相互独立的正态变量的代数和仍为正态变量;常数与正态变量的乘积仍为正态变量;正态变量
11、的线性函数仍为正态变量。,(2)正态变量的和(差)的均数等于正态变量均数的和(差);常数与正态变量乘积的均数等于常数与变量均数的乘积。,(3)常数与正态变量乘积的方差等于常数的平方与正态变量方差的乘积;相互独立的正态变量的和或差的方差都等于正态变量方差的和。,5.对数正态分布 若随机变量X不服从正态分布,但X的对数(如lnX、lgX等)服从正态分布,则称X服从对数正态分布。,二、频数分布表和频数分布图(P29),将观察值分组,统计各组段的频数,按一定的顺序排列成表,称为频数分布表(frequency distribution table)。将频数分布表绘制成图,称为频数分布图(frequenc
12、y graph)。编制频数分布表,绘制频数分布图,都是整理资料的基本方法,可以提示资料的分布特征和分布类型,表达原始数据中所包含各种数量的分布规律,且便于发现特异值。有简捷方法计算 平均值和标准差。,例3.1 测得148名正常人糖(mmol/L)结果如下,试求频数分布图。,493 488 483 490 454 435 412 437 334 495 417 500 517 503 534 546 416 520,用途:1.揭示资料的分布特征和分布类型。,2.便于进一步计算统计指标和分析处理。,3.便于发现某些特大或特小的特异值。,图像:对称、左偏、右偏。特征:集中、离散,三、集中趋势的描述(
13、P30),1、均数,总体平均数:例如一个小的理论总体,其全体取值为:1,6,4,5,6,3,8,7,可以表示为:,X1=1,X2=6,X3=4,X4=5,X5=6,X6=3,X7=8,X8=7(1.1),使用字母 N 来表示总体容量,上面理论总体容量为N=8总体平均数(念作“mu”)就是,公式1.1 作为总体平均数的代数缩写式就是:,公式1.2 作为样本平均数的代数缩写式就是:,从(1.1)所示总体1,6,4,5,6,3,8,7,可以抽出56种容量为3的样本,但是只有四个样本均数与总体均数相同,即:,样本 和 X3,X6,X7 4+3+8 5X2,X3,X4 6+4+5 5X5,X3,X4 6
14、+4+5 5X8,X6,X4 7+3+5 5,要使每一个样本均数是的无偏估计取决于样本所含的值以及样本容量的实际大小我们期望全部可能平均值的平均值与总体参数相等事实上,这个定义就是总体均数的一个无偏估计,如果把 56 种容量为3的样本均数求出来,再求平均数的平均数,就得到平均值5,也即是总体均数,记得吗?总体数量太大以至难以完全进行调查,于是依靠单一样本去估计或逼近总体特征,2.中位数M(Median),中位数M是排序观察值的中间值当一组数据按照从小到大的顺序排列起来时,值的深度d=(n+1)/2,是它相对于极端值(末端)所在的位置它不是由全部观察值综合计算出来的,而是由居中位置的观察值所决定
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 研究生 统计学 讲义 定量 资料 统计 描述

链接地址:https://www.31ppt.com/p-5806375.html