计量资料的统计描述.ppt.ppt
《计量资料的统计描述.ppt.ppt》由会员分享,可在线阅读,更多相关《计量资料的统计描述.ppt.ppt(114页珍藏版)》请在三一办公上搜索。
1、医学统计学,计量资料的统计描述 大理学院 巫秀美2012年10月18日,Refresh,如何学好医学统计学学习目标:工具课,学以致用。掌握基本概念统计方法的适用的条件、基本思想能够进行计算分析,如何进行科学的判断?,直观的看,近几年全球的地震活动似乎越来越活跃。地震的强度和次数仿佛有增加的趋势科学的判断:收集数据:每年发生很多次地震 整理数据:分布,指标 分析数据:各年对比,趋势分析 解释数据:得出结论,结论的可靠性统计学:从数据到结论(到决策),统计研究的过程,收集数据(取得数据),实际问题,统计设计,统计学基本概念,随机事件(random event)v.s.必然事件变异(variatio
2、n)v.s.同质(homogeneity)总体(population)v.s.样本(sample)抽样研究与抽样误差(sampling error)参数(parameter)v.s.统计量(statistics),随机事件的概念,随机现象:在基本条件相同的情况下,却可能出现不同的结果,究竟出现哪一种结果,随“机遇”而定,带有偶然性。内在的规律性?如何研究它们?研究随机现象:进行观察或实验,这些观察和实验统称为随机试验(Experiment),把基本条件每实现一次称为进行一次试验,试验的结果中所发生的现象叫做事件。例如:掷一次硬币,是一次随机试验。,随机事件的概念,()导体通电时,发热()抛一石
3、块,下落()在常温下,焊锡融化()在标准大气压下且温度 摄氏度时,冰融化()掷一枚硬币,出现正面()某人射击一次,中靶,必然事件,不可能事件,随机事件,同 质 与 变 异,同质(homogeneity)事物某方面的性质、影响条件或背景相同或相近。变异(variation)同质个体间的差异。来源于一些未加控制或无法控制的甚至不明原因的因素。是统计学存在的基础。从本质上说:统计学就是通过对个体变异的研究,揭示同质事物的本质特征与规律。,总 体 与 样 本,总体参数(parameter)根据研究目的确定的研究对象的全体,即性质相同的所有观察对象的集合;分为有限总体和无限总体。样本统计量(statis
4、tics)总体中的部分;研究对象。总体与样本的关系统计学解决的问题:正确从样本特征推测总体水平。抽样:从总体中选择样本的过程。样本量(sample size):样本所包含的个体数目。,普查 与 抽样,普查(census):全面调查,根据研究目的确定总体,人口普查,肿瘤普查大多社会学/卫生防疫的指标确定的依据注意时效性、变化性传染病报告制度,地震伤亡等都属于普查普查的缺点:耗时耗力,成本高;无法搜集较为深入、详细的信息;普查错误机率大。抽样研究:从总体中抽取少量的样本,计算样本统计量来帮我们推估总体的性质。,总 体 与 样 本,参数(parameters):总体的统计学特性的数字表达,包括总体均
5、数、总体方差、总体标准差A parameter is a numerical quantity that describes some characteristics of a population.如、总体中位数等皆为参数。大多数时候得不到总体数据=参数为未知,总 体 与 样 本,统计主要问题在于如何透过样本的统计量来推估或检证总体的参数。样本统计量(Sample statistics)是用来描述样本特性的数量。Sample mean x、sample variance S2,and the sample proportion pSample statistics为观察到的样本之函数,样本的
6、统计量随着取样的不同,会有不同的变化。因此,样本统计量本身可以被视为是一随机变量。,描述统计学与推断统计学,描述统计学(descriptive statistics):计算各种指标来反应数据的构成分布,以及用一定的表格和图形把结果显示出来是统计的基本方法但是受数据采集的局限(局部样本)推断统计学(inferential statistics):在概率论的基础上,由随机样本的数量特征来推断总体的数量特征,并作出可靠程度的估计或检验样本的数量特征的概率分布与总体数量特征之间存在客观联系是现代统计学的主流,描述统计学与推断统计学,描述统计学与推断统计学的关系二者是统计学发展的不同阶段:大致以20世纪
7、20年代小样本分布理论的出现为界之前集中在数据的采集和指标的计算上;之后推断统计学蓬勃发展,称为主流。推断统计学不能代替描述统计学:纵有难易之别,绝无(层次)高低之分描述统计是基本的统计方法,是推断统计的基础描述统计学有助于培养对数据的“感觉”(统计观念),描述统计与推断统计的关系,反映客观现象的数据,描述统计(统计数据的搜集、整理、显示和分析等),统计指标和指标体系,统计指标(指标):说明总体的综合数量特征的概念和数值。一个完整的统计指标包括指标名称和指标数值两部分。指标名称是指标本质的抽象概括,对总体数量特征的规定性,它一般反映一定的社会经济范畴;有时也被当作统计指标;指标数值是指标量的规
8、定,它是根据指标的内容所计算出来的具体数值。应该包括总体范围、时间、地点、数值及单位等。,数据(统计指标)的四种计量尺度:,数据的计量尺度,统计指标和指标体系,数据的计量尺度与类型,定类尺度,定序尺度,定距尺度,定比尺度,精确程度,良好,1980,134公斤,中国,国籍:,健康状况:,出生年份:,体重:,(1)定类尺度(Nominal Scale),也称分类尺度例如:性别、民族、职业数据表现为“类别”各类之间无等级次序 各类别可以用数字代码表示根据定类尺度得到的数据为分类数据。,(2)定序尺度(Ordinal Scale),也称顺序尺度例如健康状况、质量等级可对等级、大小等排序未测量出类别之间
9、的准确差值根据定序尺度得到的数据为顺序数据。,(3)定距尺度(Interval Scale),也称间隔尺度例如年份、摄氏温度数据表现为“数值”可以进行加减运算“0”是只是尺度上的一个点,不代表“不存在”根据定距尺度得到的数据为间距数据。,(4)定比尺度(Ratio Scale),也称比率尺度例如体重、身高数据表现为“数值”可以进行加减、乘除运算“0”表示“没有”或“不存在”根据定比尺度得到的数据为比率数据。,四种计量尺度的比较,计量尺度,数学特性,四种计量尺度的比较,四种尺度所包含的信息量是依次递增的,级别由低到高。根据较高层次的计量尺度可以获得较低层次的计量尺度。不同的尺度数据对应着不同数据
10、显示方法和分析方法。,统计数据是采用某种计量尺度对事物进行计量的结果。采用不同的计量尺度 不同类型的统计数据:,选择统计学方法,定量资料变量的分类,离散型,离散型:随机变量所取的可能值是有限多个或可列无限个,叫做离散型随机变量。连续型:随机变量所取的可能值可以连续地充满某个区间,叫做连续型随机变量。,随机变量,连续型,计量资料的统计描述Descriptions of Measurement Data,主要内容,频数表集中趋势离散趋势正态分布医学参考值的制定,频数分布,频数表的编制 编制步骤:1.求极差(即全距)R;2.确定组数n、组距i,并写出组段;3.列表划记。,某市1995年110名7岁男
11、童的身高资料(cm),本例资料,最大值为134.5cm,最小值为110.2cm,故极差 R=134.5-110.2=24.3cm组数不宜太多,也不宜太少。一般根据样本量的多少分成8-15组。本例假设分成10组。理论上组距等于极差除以组数。但不拘泥于计算结果,而常常取一个比较好处理的数。组距可以相等,也可以不等。本例,组距=24.3/10=2.43,我们取为 2 cm。组段:上限、下限列表划记,某市1995年110名7岁男童身高的频数分布,频数表的用途根据频数表,进而可以绘制频数图。揭示资料的分布特征和分布类型:资料的分布范围、峰(单峰或多峰)和离散情况。对于单峰分布资料,对称分布,其中一种特殊
12、的分布叫做正态分布;非对称分布,又称偏态分布。便于发现可疑值;便于进一步计算指标和统计分析处理。,BREAK!,集中趋势:一、众数二、中位数三、均值四、众数、中位数和均值的比较,统计数据的描述,众数(mode),定义:众数是指总体中最普遍出现的标志值。一组数据中出现次数最多的变量值适合于数据量较多时使用不受极端值的影响一组数据可能没有众数或有几个众数主要用于分类数据,也可用于顺序数据和数值型数据,众数(不惟一性),无众数原始数据:10 5 9 12 6 8,一个众数原始数据:6 5 9 8 5 5,多于一个众数原始数据:25 28 28 36 42 42,中位数,定义:中位数是将总体各个单位按
13、其标志值的大小顺序排列,处于数列中点的那个单位的标志值,在总体中,标志值小于中位数的单位占一半;标志值大于中位数的单位也占一半。,中位数(median),一、算术平均数二、调和平均数三、几何平均数,均值,均值(mean),集中趋势的最常用测度值一组数据的均衡点所在体现了数据的必然性特征易受极端值的影响用于数值型数据,不能用于分类数据和顺序数据,算术平均数(arithmetic mean),算术平均数的基本公式计算平均数的要求:总体标志总量必须是总体各单位标志值的总和,标志值和单位之间一一对应。,调和平均数(harmonic mean),1.简单调和平均数:标志值的倒数的算术平均数的倒数。,几何
14、平均数(geometric mean),n 个变量值乘积的 n 次方根适用于对比率数据的平均主要用于计算平均增长率计算公式为,可看作是均值的一种变形,众数、中位数和均值的比较,众数、中位数、均值的特点和应用,众数不受极端值影响具有不惟一性数据分布偏斜程度较大时应用中位数不受极端值影响数据分布偏斜程度较大时应用均值易受极端值影响数学性质优良数据对称分布或接近对称分布时应用,离散趋势极差方差和标准差变异系数四分位数间距,计量资料的统计描述,极差(range),一组数据的最大值与最小值之差离散程度的最简单测度值易受极端值影响未考虑数据的分布,R=max(xi)-min(xi),计算公式为,四分位数(
15、quartile),百分位数(percentile):P1、P2、P3、P100四分位数:P25、P50、P75下四分位数(lower quartile):P25 QL上四分位数(upper quartile):P75 QU中位数M P50百分位数间距(inter-percentile range):最常用的为P75P25,即四分位间距Q,极差与四分位数间距,描述计量资料的离散程度,比较粗略四分位数间距比极差稳定二者主要用于描述偏态分布资料,方差和标准差,离散程度的测度值之一最常用的测度值反映了数据的分布反映了各变量值与均值的平均差异根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的
16、,称为样本方差或标准差,方差和标准差,Variance 和standard deviation用于描述正态分布资料的离散程度同质的两组资料,均数相近,标准差大的说明该组各观测值较分散。,离散系数,1.标准差与其相应的均值之比2.对数据相对离散程度的测度3.消除了数据水平高低和计量单位的影响4.用于对不同组别数据离散程度的比较5.计算公式为,变异系数(coefficient of variation),无度量衡单位相对离散程度:用于对不同组别数据离散程度的比较用于单位不同,或虽单位相同,但均数相差较大的资料间变异程度的比较,To Be Continued,集中趋势:众数(mode)中位数(med
17、ian)均值(mean):算数均数、调和均数(H)、几何均数(G),计量资料的统计描述,计量资料的统计描述,离散趋势极差(Range)方差和标准差(Variance,Standard Deviation)变异系数(Coefficient of Variation),正态分布及应用 图形,定义:设X为一个随机变量,对任意实数x,称F(x)=P(X x)为X的分布函数基本性质:(1)F(x)单调不降;(2)有界:0F(x)1,F()=0,F(+)=1;(3)右连续。,随机变量的分布函数,连续随机变量的密度函数,连续随机变量X的可能取值充满某个区间(a,b)。因为对连续随机变量X,有P(X=x)=0
18、,所以无法仿离散随机变量用P(X=x)来描述连续随机变量X的分布.,连续型,密度函数 X p(x)(不唯一),2.,4.P(X=a)=0,离散型,分布列:pn=P(X=xn)(唯一),2.F(x)=,3.F(a+0)=F(a);P(aXb)=F(b)F(a).,4.点点计较,5.F(x)为阶梯函数。,5.F(x)为连续函数。,F(a0)=F(a).,F(a0)F(a).,常见的离散型随机变量,(0-1)分布二项分布泊松分布,常见连续型分布,正态分布、均匀分布、指数分布、伽玛分布、贝塔分布。,y,x,O,正态变量的线性不变性,定理 设 X N(,2),则当a 0 时,Y=aX+b N(a+b,a
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计量 资料 统计 描述 ppt
链接地址:https://www.31ppt.com/p-6606987.html