计量资料的统计描述.ppt.ppt
医学统计学,计量资料的统计描述 大理学院 巫秀美2012年10月18日,Refresh,如何学好医学统计学学习目标:工具课,学以致用。掌握基本概念统计方法的适用的条件、基本思想能够进行计算分析,如何进行科学的判断?,直观的看,近几年全球的地震活动似乎越来越活跃。地震的强度和次数仿佛有增加的趋势科学的判断:收集数据:每年发生很多次地震 整理数据:分布,指标 分析数据:各年对比,趋势分析 解释数据:得出结论,结论的可靠性统计学:从数据到结论(到决策),统计研究的过程,收集数据(取得数据),实际问题,统计设计,统计学基本概念,随机事件(random event)v.s.必然事件变异(variation)v.s.同质(homogeneity)总体(population)v.s.样本(sample)抽样研究与抽样误差(sampling error)参数(parameter)v.s.统计量(statistics),随机事件的概念,随机现象:在基本条件相同的情况下,却可能出现不同的结果,究竟出现哪一种结果,随“机遇”而定,带有偶然性。内在的规律性?如何研究它们?研究随机现象:进行观察或实验,这些观察和实验统称为随机试验(Experiment),把基本条件每实现一次称为进行一次试验,试验的结果中所发生的现象叫做事件。例如:掷一次硬币,是一次随机试验。,随机事件的概念,()导体通电时,发热()抛一石块,下落()在常温下,焊锡融化()在标准大气压下且温度 摄氏度时,冰融化()掷一枚硬币,出现正面()某人射击一次,中靶,必然事件,不可能事件,随机事件,同 质 与 变 异,同质(homogeneity)事物某方面的性质、影响条件或背景相同或相近。变异(variation)同质个体间的差异。来源于一些未加控制或无法控制的甚至不明原因的因素。是统计学存在的基础。从本质上说:统计学就是通过对个体变异的研究,揭示同质事物的本质特征与规律。,总 体 与 样 本,总体参数(parameter)根据研究目的确定的研究对象的全体,即性质相同的所有观察对象的集合;分为有限总体和无限总体。样本统计量(statistics)总体中的部分;研究对象。总体与样本的关系统计学解决的问题:正确从样本特征推测总体水平。抽样:从总体中选择样本的过程。样本量(sample size):样本所包含的个体数目。,普查 与 抽样,普查(census):全面调查,根据研究目的确定总体,人口普查,肿瘤普查大多社会学/卫生防疫的指标确定的依据注意时效性、变化性传染病报告制度,地震伤亡等都属于普查普查的缺点:耗时耗力,成本高;无法搜集较为深入、详细的信息;普查错误机率大。抽样研究:从总体中抽取少量的样本,计算样本统计量来帮我们推估总体的性质。,总 体 与 样 本,参数(parameters):总体的统计学特性的数字表达,包括总体均数、总体方差、总体标准差A parameter is a numerical quantity that describes some characteristics of a population.如、总体中位数等皆为参数。大多数时候得不到总体数据=参数为未知,总 体 与 样 本,统计主要问题在于如何透过样本的统计量来推估或检证总体的参数。样本统计量(Sample statistics)是用来描述样本特性的数量。Sample mean x、sample variance S2,and the sample proportion pSample statistics为观察到的样本之函数,样本的统计量随着取样的不同,会有不同的变化。因此,样本统计量本身可以被视为是一随机变量。,描述统计学与推断统计学,描述统计学(descriptive statistics):计算各种指标来反应数据的构成分布,以及用一定的表格和图形把结果显示出来是统计的基本方法但是受数据采集的局限(局部样本)推断统计学(inferential statistics):在概率论的基础上,由随机样本的数量特征来推断总体的数量特征,并作出可靠程度的估计或检验样本的数量特征的概率分布与总体数量特征之间存在客观联系是现代统计学的主流,描述统计学与推断统计学,描述统计学与推断统计学的关系二者是统计学发展的不同阶段:大致以20世纪20年代小样本分布理论的出现为界之前集中在数据的采集和指标的计算上;之后推断统计学蓬勃发展,称为主流。推断统计学不能代替描述统计学:纵有难易之别,绝无(层次)高低之分描述统计是基本的统计方法,是推断统计的基础描述统计学有助于培养对数据的“感觉”(统计观念),描述统计与推断统计的关系,反映客观现象的数据,描述统计(统计数据的搜集、整理、显示和分析等),统计指标和指标体系,统计指标(指标):说明总体的综合数量特征的概念和数值。一个完整的统计指标包括指标名称和指标数值两部分。指标名称是指标本质的抽象概括,对总体数量特征的规定性,它一般反映一定的社会经济范畴;有时也被当作统计指标;指标数值是指标量的规定,它是根据指标的内容所计算出来的具体数值。应该包括总体范围、时间、地点、数值及单位等。,数据(统计指标)的四种计量尺度:,数据的计量尺度,统计指标和指标体系,数据的计量尺度与类型,定类尺度,定序尺度,定距尺度,定比尺度,精确程度,良好,1980,134公斤,中国,国籍:,健康状况:,出生年份:,体重:,(1)定类尺度(Nominal Scale),也称分类尺度例如:性别、民族、职业数据表现为“类别”各类之间无等级次序 各类别可以用数字代码表示根据定类尺度得到的数据为分类数据。,(2)定序尺度(Ordinal Scale),也称顺序尺度例如健康状况、质量等级可对等级、大小等排序未测量出类别之间的准确差值根据定序尺度得到的数据为顺序数据。,(3)定距尺度(Interval Scale),也称间隔尺度例如年份、摄氏温度数据表现为“数值”可以进行加减运算“0”是只是尺度上的一个点,不代表“不存在”根据定距尺度得到的数据为间距数据。,(4)定比尺度(Ratio Scale),也称比率尺度例如体重、身高数据表现为“数值”可以进行加减、乘除运算“0”表示“没有”或“不存在”根据定比尺度得到的数据为比率数据。,四种计量尺度的比较,计量尺度,数学特性,四种计量尺度的比较,四种尺度所包含的信息量是依次递增的,级别由低到高。根据较高层次的计量尺度可以获得较低层次的计量尺度。不同的尺度数据对应着不同数据显示方法和分析方法。,统计数据是采用某种计量尺度对事物进行计量的结果。采用不同的计量尺度 不同类型的统计数据:,选择统计学方法,定量资料变量的分类,离散型,离散型:随机变量所取的可能值是有限多个或可列无限个,叫做离散型随机变量。连续型:随机变量所取的可能值可以连续地充满某个区间,叫做连续型随机变量。,随机变量,连续型,计量资料的统计描述Descriptions of Measurement Data,主要内容,频数表集中趋势离散趋势正态分布医学参考值的制定,频数分布,频数表的编制 编制步骤:1.求极差(即全距)R;2.确定组数n、组距i,并写出组段;3.列表划记。,某市1995年110名7岁男童的身高资料(cm),本例资料,最大值为134.5cm,最小值为110.2cm,故极差 R=134.5-110.2=24.3cm组数不宜太多,也不宜太少。一般根据样本量的多少分成8-15组。本例假设分成10组。理论上组距等于极差除以组数。但不拘泥于计算结果,而常常取一个比较好处理的数。组距可以相等,也可以不等。本例,组距=24.3/10=2.43,我们取为 2 cm。组段:上限、下限列表划记,某市1995年110名7岁男童身高的频数分布,频数表的用途根据频数表,进而可以绘制频数图。揭示资料的分布特征和分布类型:资料的分布范围、峰(单峰或多峰)和离散情况。对于单峰分布资料,对称分布,其中一种特殊的分布叫做正态分布;非对称分布,又称偏态分布。便于发现可疑值;便于进一步计算指标和统计分析处理。,BREAK!,集中趋势:一、众数二、中位数三、均值四、众数、中位数和均值的比较,统计数据的描述,众数(mode),定义:众数是指总体中最普遍出现的标志值。一组数据中出现次数最多的变量值适合于数据量较多时使用不受极端值的影响一组数据可能没有众数或有几个众数主要用于分类数据,也可用于顺序数据和数值型数据,众数(不惟一性),无众数原始数据:10 5 9 12 6 8,一个众数原始数据:6 5 9 8 5 5,多于一个众数原始数据:25 28 28 36 42 42,中位数,定义:中位数是将总体各个单位按其标志值的大小顺序排列,处于数列中点的那个单位的标志值,在总体中,标志值小于中位数的单位占一半;标志值大于中位数的单位也占一半。,中位数(median),一、算术平均数二、调和平均数三、几何平均数,均值,均值(mean),集中趋势的最常用测度值一组数据的均衡点所在体现了数据的必然性特征易受极端值的影响用于数值型数据,不能用于分类数据和顺序数据,算术平均数(arithmetic mean),算术平均数的基本公式计算平均数的要求:总体标志总量必须是总体各单位标志值的总和,标志值和单位之间一一对应。,调和平均数(harmonic mean),1.简单调和平均数:标志值的倒数的算术平均数的倒数。,几何平均数(geometric mean),n 个变量值乘积的 n 次方根适用于对比率数据的平均主要用于计算平均增长率计算公式为,可看作是均值的一种变形,众数、中位数和均值的比较,众数、中位数、均值的特点和应用,众数不受极端值影响具有不惟一性数据分布偏斜程度较大时应用中位数不受极端值影响数据分布偏斜程度较大时应用均值易受极端值影响数学性质优良数据对称分布或接近对称分布时应用,离散趋势极差方差和标准差变异系数四分位数间距,计量资料的统计描述,极差(range),一组数据的最大值与最小值之差离散程度的最简单测度值易受极端值影响未考虑数据的分布,R=max(xi)-min(xi),计算公式为,四分位数(quartile),百分位数(percentile):P1、P2、P3、P100四分位数:P25、P50、P75下四分位数(lower quartile):P25 QL上四分位数(upper quartile):P75 QU中位数M P50百分位数间距(inter-percentile range):最常用的为P75P25,即四分位间距Q,极差与四分位数间距,描述计量资料的离散程度,比较粗略四分位数间距比极差稳定二者主要用于描述偏态分布资料,方差和标准差,离散程度的测度值之一最常用的测度值反映了数据的分布反映了各变量值与均值的平均差异根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差,方差和标准差,Variance 和standard deviation用于描述正态分布资料的离散程度同质的两组资料,均数相近,标准差大的说明该组各观测值较分散。,离散系数,1.标准差与其相应的均值之比2.对数据相对离散程度的测度3.消除了数据水平高低和计量单位的影响4.用于对不同组别数据离散程度的比较5.计算公式为,变异系数(coefficient of variation),无度量衡单位相对离散程度:用于对不同组别数据离散程度的比较用于单位不同,或虽单位相同,但均数相差较大的资料间变异程度的比较,To Be Continued,集中趋势:众数(mode)中位数(median)均值(mean):算数均数、调和均数(H)、几何均数(G),计量资料的统计描述,计量资料的统计描述,离散趋势极差(Range)方差和标准差(Variance,Standard Deviation)变异系数(Coefficient of Variation),正态分布及应用 图形,定义:设X为一个随机变量,对任意实数x,称F(x)=P(X x)为X的分布函数基本性质:(1)F(x)单调不降;(2)有界:0F(x)1,F()=0,F(+)=1;(3)右连续。,随机变量的分布函数,连续随机变量的密度函数,连续随机变量X的可能取值充满某个区间(a,b)。因为对连续随机变量X,有P(X=x)=0,所以无法仿离散随机变量用P(X=x)来描述连续随机变量X的分布.,连续型,密度函数 X p(x)(不唯一),2.,4.P(X=a)=0,离散型,分布列:pn=P(X=xn)(唯一),2.F(x)=,3.F(a+0)=F(a);P(aXb)=F(b)F(a).,4.点点计较,5.F(x)为阶梯函数。,5.F(x)为连续函数。,F(a0)=F(a).,F(a0)F(a).,常见的离散型随机变量,(0-1)分布二项分布泊松分布,常见连续型分布,正态分布、均匀分布、指数分布、伽玛分布、贝塔分布。,y,x,O,正态变量的线性不变性,定理 设 X N(,2),则当a 0 时,Y=aX+b N(a+b,a22).,由此得:若 X N(,2),则 Y=(X)/N(0,1).,对数正态分布,定理 设 X N(,2),则 Y=e X 的服从,(x)的计算,(1)x 0 时,查标准正态分布函数表.,(2)x 0时,用,若 X N(0,1),则(1)P(X a)=(a);(2)P(Xa)=1(a);(3)P(aXb)=(b)(a);(4)若a 0,则 P(|X|a)=P(aXa)=(a)(a)=(a)1(a)=2(a)1,标准正态分布,标准正态分布是均数为0,标准差为1的正态分布,对于任何参数和的正态分布,都可以通过一个简单变量变换化成标准正态分布,即,数据分布的不对称性称作偏态。偏态系数(SK)是对数据分布的不对称性(偏斜程度)的测度。偏态系数有多种计算方法,在统计软件中(如Excel等)通常采用以下公式:,4.3.1 偏态及其测定(Skewness),分布形态的测定,偏态系数的含义,峰度:数据分布的扁平或尖峰程度。峰度系数(K):数据分布峰度的度量值,对数据分布尖峰或扁平程度的测度。统计软件(如Excel等)中常用以下公式计算,4.3.2 峰度及其测定(Kurtosis),分布形态的测定,峰度系数的含义,峰度系数K0,与正态分布相比该分布一般为扁平、瘦尾,肩部较胖。,峰度系数K0,与正态分布相比该分布一般为尖峰、肥尾,肩部较瘦。,正态分布的特征,以均数为中心对称,均数处最高;2个参数 N(,),是位置参数,是变异参数正态曲线下面积:1.96范围内的面积是95%,2.58范围内的面积是99%,正态分布的重要性与应用,正态分布是许多统计方法的理论基础制定医学参考值范围(pp.27-28)质量控制(3s原则),医学参考值范围,一、概念医学参考值范围(reference value range)又称正常值范围(normal range),是指正常人的解剖、生理、生化、免疫等各种数据的波动范围。通常把绝大多数(如90%、95%和99%)研究对象的某指标值范围称为该研究对象该指标的正常值范围。最常用的95%正常值范围。,医学参考值范围的测定方法,1.选择足够数量的正常人作为参照样本 一般至少在120例以上2.对选定的正常人进行准确的测定3.决定取单侧范围还是双侧范围值4.选择适当的百分范围若主要目的在于减少假阳性(确诊病人),参考值范围要取大一些,若目的是减少假阴性(初筛病人)参考值范围要减小一些。,二、医学参考值范围的测定方法,5.估计参考值范围的界限 两种方法的比较:,根据资料的分布特征,有两种估计方法:1.正态分布法太大太小都不正常指标 假设7岁男童身高服从正态分布。某地1995年随机调查110名7岁男童的身高,得到身高均数为119.95cm,标准差为4.72cm。试估计该地1995年7岁男童身高的95%正常值范围。,太大不正常指标太小不正常指标,假设肺活量服从正态分布。随机测量了某地100名正常女青年的肺活量,得到其均数为2000ml,标准差为300ml。试估计该地正常女青年肺活量的95%正常值范围。,2.百分位数法 95%正常值范围:太大太小都不正常指标 P2.5P97.5太大不正常指标 0P95太小不正常指标 P5+,某年某地一次伤寒爆发的潜伏期数据。,该资料显然为偏态分布资料,估计正常值范围时应用百分位数法。伤寒潜伏期的95%正常值范围,用途:评判某观察对象某指标是否正常。质量控制 在实验研究中,用来控制误差,保证数据质量。多种统计处理方法的基础,BREAK!,Summarization of a collection of data in a clear and understandable way the most basic form of statistics lays the foundation for all statistical knowledge,Descriptive Statistics,Inferential StatisticsTwo main methods:estimation the sample statistic is used to estimate a population parameter a confidence interval about the estimate is constructed.hypothesis testing a null hypothesis is put forward Analysis of the data is then used to determine whether to reject it.,Inferential statistics generally require that sampling be random,Nominal:gender,type of customer(loyalty),flavor/color liked,etc.Ordinal/Ranking:type of user,preferred brand,brand awareness,etc.Interval:Attitudinal or satisfaction scales.Are you satisfied with your education at U of L?Dissatisfied SatisfiedRatio:Income,price willing to pay,age,etc.,TYPES OF DATA,Type ofMeasurement,Nominal,Twocategories,More thantwo categories,Frequency tableProportion(percentage)Frequency tableCategory proportions(percentages)Mode,Type of descriptive analysis,Ratio,means,Type ofMeasurement,Type of descriptive analysis,Ordinal,Rank orderMedian,Interval,Arithmetic mean,The arrangement of statistical data in a row-and-column format that exhibits the count of responses or observations for each category assigned to a variableHow many of certain brand users can be called loyal?What percentage of the market are heavy users and light users?How many consumers are aware of a new product?What brand is the“Top of Mind”of the market?,Frequency Tables,Mean:average value Mode:the most frequent categoryMedian:the middle observation of the data,Measures of Central Location or Tendency,Mode the most frequent categoryusers25%non-users75%Advantages:meaning is obvious the only measure of central tendency that can be used with nominal data.Disadvantages many distributions have more than one mode,i.e.are multimodal greatly subject to sample fluctuations therefore not recommended to be used as the only measure of central tendency.,Medianthe middle observation of the datanumber times per week consumers use mouthwash1 1 2 2 2 3 3 3 3 3 4 4 4 4 4 4 4 5 5 5 5 5 6 6 6 7 7,Frequency distribution of Mouthwash use per week,Normal Distributions,Curve is basically bell shaped from-to symmetric with scores concentrated in the middle(i.e.on the mean)than in the tails.Mean,medium and mode coincideThey differ in how spread out they are.The area under each curve is 1.The height of a normal distribution can be specified mathematically in terms of two parameters:the mean(m)and the standard deviation(s).,Normal Distribution,-,a,b,Area between a and b=P(a=X=b),Occur when one tail of the distribution is longer than the other.Positive Skew Distributions have a long tail in the positive direction.sometimes called skewed to the right more common than distributions with negative skews E.g.distribution of income.Most people make under$40,000 a year,but some make quite a bit more with a small number making many millions of dollars per year The positive tail therefore extends out quite a long way Negative Skew Distributionshave a long tail in the negative direction.called skewed to the left.negative tail stops at zero,Skewed Distributions,Minimum,Maximum,and RangeVarianceStandard Deviation,Measures of Dispersion or Variability,Variance,The difference between an observed value and the mean is called the deviation from the mean The variance is the mean squared deviation from the mean i.e.you subtract each value from the mean,square each result and then take the average.Because it is squared it can never be negative,The standard deviation is the square root of the variance Thus the standard deviation is expressed in the same units as the variables Helps us to understand how clustered or spread the distribution is around the mean value.,Standard Deviation,Normal Distributions with different SD,How does the Normal Distribution help to make decisions?,Inferential StatisticsShall be answered on 2012-11-01.,