电大《实用卫生统计学》形成性考核手册参考答案参考小抄.doc
实用卫生统计学作业1一、名词解释(每题4分,共20分)1变异:同一性质的事物,其个体观察值(变量值)之间的差异,在统计学上称为变异。2统计推断:根据样本资料的特性对总体的特性作估计或推论的方法称统计推断,常用方法是参数估计和假设检验。3标准差:是方差的算术平方根,是反映计量资料全部观察值离散程度的统计指标,用于描述对称分布资料,尤其是正态分布资料的离散趋势。总体标准差用符号表示,样本标准差用符号s表示。4均数:是算术均数的简称。习惯上用表示总体均数,用x表示样本均数。均数反映一组观察值在数量上的平均水平,适用于对称分布尤其是正态分布资料。5动态数列:动态数列是一系列按时间顺序排列起来的统计指标,包括绝对数、相对数或平均数,用以说明事物在时间上的变化和发展趋势。二、填空题(每空1分,共20分)1计量资料是指用度量衡的方法测定每个观察单位的某项研究指标量的大小获得的连续型资料,常用的统计指标有平均数、标准差,常用的统计方法有t检验、u检验、方差分析、(直线相关与回归)。2收集统计资料的三个基本要求是完整、正确和及时、要有足够的数量、资料的代表性和可比性。3描述计量资料离散趋势的常用指标有极差、四分位数间距、方差和标准差、变异系数。4描述计量资料的集中趋势的常用指标有(算术)均数、几何均数、中位数。 5常用的相对数有率、构成比、相对比。三、选择题(每题1分,共10分)1调查某单位科研人员论文发表的情况,统计每人每年的论文发表数应属于(A)。 A计量资料 B计数资料 C总体 D个体2下面哪个指标是样本指标( D )。 A B C DX3欲了解某市某年所有三级甲医院的病床数,该市每个三级甲医院就是一个( B )。 A有限总体 B观察单位 C无限总体 D观察值4医学人口统计应属于卫生统计学的哪部分内容( C )? A卫生统计学原理 B卫生统计学基本方法 C健康统计 D卫生服务统计5用均数和标准差可全面描述下面哪种资料的分布特征( D )? A正偏态资料 B负偏态资料 C未知分布资料 D正态分布资料6某组资料共5例,X2=190,X=30,则均数和标准差分别是( D )。 A.6、1.29 B.6.33、2.5 C.38、6.78 D.6、1.5875人的血清滴度为:1:20,1:40,1:801:160,1:320,则平均滴度是(D ): A. 1:40 B.1:320 C.1:160 D.1:808标化后的总死亡率( A )。 A仅仅作为比较的基础,它反映了一种相对水平 B它反映了实际水平 C它不随标准选择的变化而变化 D它反映了事物实际发生的强度9对于率的标准化法的了解,不正确的是( D )。 A不同的内部构成,其实质是除研究因素外的混杂因素 B由于被比较因素会受到内部构成的影响,当两组资料的内部构成明显不同时,资料不具有可比性 C标准化法的目的是均衡两组资料的混杂因素的影响水平,增强其可比性 D校正后得到的总率能更好地反映实际水平10.随机选取男200人,女100人为某寄生虫病研究的调查对象,测得其感染阳性率分别为20%和15%,则合并阳性率为( C )。 A35% B16.7% C18.3% D无法计算四、简答题(每题6分,共30分)1试述概率在卫生统计学中的作用?具体有哪些方面的应用?概率是指某随机事件发生的可能性大小的数值,常用符号P来表示。随机事件的概率在0与1之间,即0P1,常用小数或百分数表示。P越接近1,表明某事件发生的可能性越大,P越接近0,表明某事件发生的可能性越小。统计中的许多结论都是带有概率性的。一般常将P0.05或P0.01称为小概率事件,表示某事件发生的可能性很小。P 值是由实际样本获得的,是指在H0 成立的前提下,出现等于及大于(或/等于及小于)现有样本获得的检验统计量值的概率。在假设检验中通常是将 P 与对比来得到结论,若P,则拒绝 H0,接受H1,有统计学意义,可以认为不同或等;否则,若P,则不拒绝H0,无统计学意义,还不能认为不同或不等。具体应用:样本均数比较的假设检验(如t检验,u检验,方差分析),样本率(或构成比)比较的假设检验(如样本率与总体率比较的u检验,2检验),秩和检验,相关系数和回归系数的假设检验等。2简述总体和样本的关系?如何保证样本的良好代表性?总体是根据研究目的确定的同质观察单位的全体,更确切地说,是同质的所有观察单位某种变量值的集合。从总体中随机抽取有代表性的一部分个体,其测量值(或观察值)的集合称为样本。样本除了数量比总体少,其他构成均与总体一样,是总体具体而微的缩影。样本应具有代表性,应当用随机抽样方法,按照随机化的原则,使总体中每一个观察单位都有同等的机会被选入到样本中。随机抽样是样本具有代表性的保证。3均数、几何均数、中位数的适用范围有何异同?如何计算?参见教材第27项,表2.9表2.9 常用描述集中趋的指标指标计算公式适用条件均数 适用于对称分布,尤其是正态分布几何均数G等比资料,对数正态分存中位数M偏态分布,末端无确定值4有哪些描述离散趋势的指标?其适用范围有何异同?如何计算?参见教材第27页,表2.10表2.10 常用描述离散趋势的指标指标计算公式适用条件极差R最大值最小值任何分布四分位数间距QQ=p75p25偏态分布,末端无确定值方差2、s2对称分布,尤其是正态分布标准差、s对称分布,尤其是正态分布变异系数CV量纲不同的资料均数相差悬殊的资料5请问什么是正态分布?正态分布有哪些应用?正态分布又称高斯分布,是一个连续性分布,高峰位于中央,两侧逐渐降低,左右对称,但永远不与横轴相交的钟型曲线。正态分布具有以下特征:集中性:正态曲线的高峰位于正中央,即均数所在的位置;对称性:正态曲线以均数为中心,左右对称;正态分布有两个参数,即均数和标准差;正态曲线下面积有一定的分布规律。正态分布的应用:医学参考值的估计;质量控制;正态分布是很多统计分析方法的基础。6常用相对数有哪些?简述率的标准化法的基本思想?直接标准化法需要哪些条件?常用的相对数有率、构成比和相对比。率的含义:某现象实际发生的例数与可能发生的总例数之比,说明某现象的发生频率或强度。其特点:说明现象的强弱。构成比的含义:事物内部某一部分的个体数与该事物各部分个体数的总和之比,用来说明各构成部分在总体中所占的比重或分布,通常以100为比例基数,又称为百分比。其特点为:(1)各部分构成比之和为100%或1;(2)某一部分所占的比重增大,其它部分的比重会相应减少。相对比的含义:是A、B两个有关联指标之比,说明两个指标间的比例关系。其特点为:两个指标可以是性质相同的,也可以是性质不同的;两个指标可以是绝对数,也可以是相对数或平均数。率的标准化法的基本思想:采用某影响因素(如年龄、性别、工龄、病情轻重、病程长短等)的统一标准构成,然后计算标准化率的方法称为标准化法,其目的是消除原样本内部某影响因素构成不同对合计率的影响,使通过标准化后的标准化合计率具有可比性。直接法计算标化率需下面2个条件:(1)资料条件:已知实际人群的年龄别(组)率,且各年龄组率无明显交叉。(2)选择标准:可选择标准人群的年龄组人口数或构成比。五、计算题(每题10分,共20分)1某市100名7岁男童的身高均数为128.0cm,标准差为4.20cm。问(1)该地7岁男童身高的95%参考值范围?(2)若一男童身高为137.0cm,怎样评价?解:求该地7岁男童身高的95%参考值范围就是求95%的7岁男童身高范围。因为身高过高过低均为异常,故求双侧界值。身高分布近似正态分布,因此用正态分布法求95%双侧界值。该地7岁男童身高的95%参考值范围为,即:(119.77cm,136.23cm)已知身高=128.0cm,先作标准正态变换查附表l,标准正态曲线下的面积,在左侧找到u=2.14,得到至2.24的面积为0.0162或1.62%,故2.14至+的面积也为1.62%,至2.14的面积为11.62%=98.38%,即身高在137.0cm以上者占该地7岁男童的1.62%,身高不到137.0cm者占占该地7岁男童的98.38%。该男童身高137.0cm超出了95%参考值范围,不正常。2. 15名健康成年男子的血清胆固醇(mg/dl)如下:222、142、136、212、129、207、172、150、161、216、174、186、167、192、145。求均数和标准差?(请用统计软件,如SAS或SPSS等)解:本例n=15,为小样本,用直接法计算均数和标准差。求均数求标准差Spss 13.0 计算:数据结构:变量Name x,Type N , Width 8, Decimals 0, Label血清胆固醇(mg/dl)参考计算分析过程:Analyze=>Reports=>Case Summaries=>Variables 选血清胆固醇(mg/dl),Statistics选N(样本例数),Mean(均数),Standard. Deviation(标准差)=>OK实用卫生统计学作业2一、名词解释(每题4分,共20分)1统计表:是以表格的形式列出统计指标,表达被研究对象的特征、内部构成及研究项目分组之间的数量关系。它是对资料进行统计描述时的一种常用手段。2抽样误差:抽样研究中,在同一总体中随机抽取样本含量相同的若干样本时,样本指标之间的差异以及样本指标与总体指标的差异,称为抽样误差。3均数的抽样误差:统计学上,对于抽样过程中产生的同一总体中均数之间的差异称为均数的抽样误差。4检验水准:也称为显著性水准,符号为。是预先规定的概率值,它是“是否拒绝H0的界限”。5检验效能:1称为检验效能,又称为把握度。它的含义是:当两总体确实有差别时,按规定的检验水准 ,能够发现两总体间差别的能力。二、填空题(每空1分,共20分)1统计表是由标题、标目、线条、数字四部分构成。2设计统计表的横标目时,基本要求是符合逻辑、主谓分明即横标目在表中作主语,纵标目作谓语,连贯在一起阅读,可以组成一句完整而通顺的话。3统计推断包括两个方面的内容,即参数估计和假设检验。4可信区间的两个要素是准确度和精密度。5抽样研究时,由于个体变异的客观存在,抽样误差是不可避免的,即抽样造成了总体指标与其样本指标之间以及样本指标之间存在差异。6计量资料常用的假设检验有两个样本均数比较的t检验、u检验和多个样本均数比较的方差分析。7假设经验的结论具有概率性,拒绝H0时,可能犯型错误,接受H0时,可能犯型错误。三、选择题(每题1分,共10分)1直条图适用于( C )。A构成比资料 B连续性资料C各自独立的分类资料 D数值变量的频数表资料2统计表中资料暂缺或未记录时,其空缺处通常用( B )表示。A B C0 D什么也不写3下面哪一种图,其横轴为连续性变量的组段,同时要求各组段的组距相等( C )。A百分条图 B直条图 C直方图 D以上皆是4要减小抽样误差,最切实可行的方法是(A )。A适当增加观察例数 B控制个体变异C严格挑选观察对象 D考察总体中每一个个体5假设已知某地35岁以上正常成年男性的收缩压的总体均数为120.2mmHg,标准差为11.2 mmHg,后者反映的是( A )。A个体变异B.抽样误差C一总体均数不同 D抽样误差或总体均数不同6总体率的可信区间的估计符合下列( C )情况时,可以用正态近似法处理A样本例数n足够大时 B样本率p不太大时Cnp和n(l-p)大于5时 Dp接近1时7在一个假设的总体(总体率=35.0%)中,随机抽取n=100的样本,得样本率p=34.2%,则产生样本率与总体率不同的原因是( C )。A测量误差 B不同总体的本质差异C抽样误差 D构成不同8正态近似法估计总体率的95%可信区间用( D )。A. p±l.96s B.p±1.96 C.p±2.58 D.p±1.96sp9比较两种药物疗效时,对于下列哪项可作单侧检验( C )。A已知A药与B药均有效 B不知A药好还是B药好C已知A药不会优于B药 D不知A药与B药是否均有效10. 20名男青年分别用两种测量肺活量的仪器测最大呼气率(l/min),比较两种方法结果有无差别,可进行( D )。 AF检验 BX2检验 C配对u检验 D配对t检验四、简答题(每题6分,共30分)1绘制统计表的基本原则是?统计表和统计图各有何作用?绘制统计表的基本原则:重点突出。不要包罗万象,要使人看过后能明白表格所要表达的主要内容。一张表必须而且只能有一个中心,要说明什么问题,应该十分明确。需要同时说明几个不同问题时,可以分开列成几张表。层次分明。避免层次过多或结构混乱。项目的排列要合理,充分运用表格纵横交叉的形式,使之一目了然。统计图表的作用:统计图表是重要的统计描述方法。统计表是以表格的形式列出统计指标,表达被研究对象的特征、内部构成及研究项目分组之间的数量关系。统计图是以各种几何图形显示统计数据的大小、升降、分布、结构以及关系等。统计表和统计图是我们分析、对比事物的重要工具,统计图表的合理采用可以使资料得以准确表达,使人印象深刻和一目了然,便于资料的计算、分析和对比。2何为I型和型错误?假设检验需注意哪些事项? 型错误是指拒绝了实际上成立的H0所犯的 “弃真”的错误,其概率大小用 表示。II 型错误是指“接受”了实际上不成立的H0 所犯的“存伪”的错误, 其概率大小用 表示。值一般不能确切的知道。当样本含量n确定时,愈小, 则愈大,反之,愈大, 则愈小;当一定时, 样本量增加, 减少。假设检验需注意哪些事项:假设检验的前提可比性;选用的假设检验方法应符合其应用条件;正确理解假设检验过程中样本均数与总体均数间的关系;正确理解“差别有统计学意义”的含义。3均数的标准误有何意义?与标准差有何区别?误差有哪些?均数标准误是样本均数的标准差,它反映了样本均数之间的离散程度;也反映了均数抽样误差的大小。标准误越小,抽样误差越小,用样本均数估计总体均数的可靠性越大。均数的标准误与标准差成正比,与样本含量n的平方根成反比,在同一总体中随机抽样,样本含量n越大,抽样误差越小。所以在实际工作中减小均数抽样误差的一个重要途径是增加样本含量n。均数的标准误与标准差的区别:参见教材P64表5.2表5.2 标准差与均数标准误的区别区别点标准差均数标准误意义衡量个体观察值离散程度的指标是样本均数的标准差,衡量样本均数的离散程度,反映了抽样误差的大小记法总体,样本估计值s总体,样本估计值计算直接法:加权法:控制方法个体差异或自然变异,不能通过统计方法控制增大样本含量可减小标准误主要应用估计参考值范围估计总体均数的可信区间医学科学研究中的误差通常指测量值与真实值之差,包括系统误差和随机误差。随机误差又可分为随机测量误差和抽样误差。抽样误差是统计学研究和处理的重要内容。4可信区间与查考值范围在实际应用中有何不同?参见教材P65表5.3表5.3 参考值范围和总体均数可信区间的区别区别点参考值范围总体均数的可信区间意义包括绝大多数人某项指标的数值满园按一定的概率估计总体参数所在的可能范围计算正态分布:偏态分布:未知:已知:未知但n足够大:主要应用判断观察对象某项指标正常与否(辅助诊断)估计未知的总体均数所在范围5请简述方差分析的基本思想?t检验与方差分析的区别和联系?方差分析的基本思想就是根据资料设计的类型及研究目的,将总变异分解成两个或多个部分。除随机误差外,其余每个部分的变异可由某因素的作用(或某几个因素的交互作用)来解释,通过比较不同变异来源的均方,由F检验作出统计推断,从而推论各种研究因素对试验结果有无影响。t检验与方差分析的区别:t检验用于两本均数间的比较,方差分析可用于两个或两个以上样本均数的比较。多个样本均数比较的方法,应该用方差分析,而不能用两个样本均数比较的t检验代替,否则增大了犯I型错误的概率,即可能会错误得出两个总体均数有差别的结论。t检验与方差分析的联系:完全随机设计的两个样本均数比较,t检验与方差分析是等价的,二者可以互相代替,计算结果有如下关系:。6u检验和t检验以及方差分析的适用条件各是什么?u检验的适用条件:当总体标准差未知,但样本含量n较大(一般n> 50)或总体标准差已知(该情况不常见)时,选用u检验。t检验的适用条件:当总体标准差未知,样本含量n较小时,理论上要求样本来自正态分布的总体。完全随机设计的两个小样本(n50)均数比较时还要求两总体方差相等。方差分析对要求各样本为随机样本,各样本来自正态总体,各样本所代表的总体方差齐性或相等五、计算题(每题10分,共20分)1用某药治疗血管病,测同一病人治疗前后血管流量数据(相对单位)如下表。试问该药有无效果?(请用统计软件,如SAS或SPSS等进行计算和分析)表2.1 用某药治疗血管病情况患者编号血管流量给药前给药后差值d=115.331.015.7210.014.04.039.015.76.7432.726.7-6.056.012.06.0612.021.49.4724.348.023.7832.043.011.0合计70.5解:本例为同一受试对象处理前后的比较(n较小),属于自身对照设计,可用配对设计t检验,目的是检验治疗有无效果。H0:d0,即用某药治疗前后患者血管流量无差别H1:d0,即用某药治疗前后患者血管流量有差别0.05已知n=8,算得, ,817查t界值表,得t0.05,7=2.365,tt0.05,7,P0.05,按0.05水准拒绝H0,接受H1,可认为某药治疗前后患者血管流量有差别,治疗血管病有效。Spss 13.0 计算:数据结构 Variable:Name x1,Type N , Width 8, Decimals 1, Label 治疗前Variable:Name x2,Type N , Width 8, Decimals 1, Label 治疗后参考计算分析过程:Analyze=>Compare Means=>Paired-Samples T Test=>Paired Variables(配对变量) 引入x1-x2=>OK2. 31例已确定肠蠕动有问题的患者,被随机分为两组,分别给予甲、乙两种饮食,观察饮食的排出时间(小时),结果如下。请问两种饮食对肠蠕动效果有无差别?(请用统计软件)甲组:78、76、45、56、52、67、70、69、53、61、70、63、69、76、58、66乙组:97、74、79、84、96、100、99、96、57、63、67、67、88、83、71解:本例 甲组:n2=16,s2=14.38;乙组:n1=15,s1=9.50,两组例数均小50,故先作两样本方差齐性检验。H0:两总体方差相等,即H1:两总体方差不相等,即0.10 ,115114,216115查F界值表(方差齐性检验用),得F0.10,(14,15)=2.43,F0.05,(14,15)=3.56,FF0.05,(14,15,P0.05,按0.05水准拒绝H0,接受H1,可认为两总体方差不相等,方差不齐。将原始数据进行对数变换(或平方根变换),使之达到方差齐性的要求。令:或,数据转换后两总体方差相等(计算略),可用两样本t检验。以对数转换为例。H0:,即两种饮食的排出时间总体均数相等H1:,即两种饮食的排出时间总体均数不相等0.05乙组:n1=15,s1=0.0793;甲组:n2=16,s2=0.0674,1516229查t界值表,得t0.05,29=2.045,tt0.05,29,P0.05,按0.05水准拒绝H0,接受H1,可认为两种饮食对肠蠕动效果有差别。Spss 13.0 计算:数据转换:Transform=>Compute=>lgx=LG10(x)或sqrtx=SQRT(x)数据结构 Variable:Name g,Type N , Width 8, Decimals 0, Label 组别Variable:Name x,Type N , Width 8, Decimals 0, Label 排出时间参考计算分析过程:Analyze=>Compare Means=>Independent-Samples T Test=>Test变量引入x或lgx或sqrtx;Grouping定义Group 1和2=>Continue=>OK注:进行两小样本均数比较,若两总体方差不等,可采用数据变换或近似t检验(Cochran & Cox近似t检验,Satterthwaite近似t检验,Welch法近似t检验)或完全随机设计的两样本比较的秩和检验。3下表是甲乙两医院某年内外科住院病人统计情况,请按照制表原则和要求指出下表的错误,并修改下表:科别内科外科人数甲医院8001200乙医院7501250解:该表的错误之处:没有标题。层次太多,描述资料不清楚,不方便比较。线条太多:不应该有竖线和斜线,有多余的横线。此表保留三条线即可:表格的顶线和底线将表格与文章的其它部分隔开来,纵标目下横线(标目线)将标目的文字区与表格的数字区分隔开来。顶线、底线一般要比标目线、合计线粗。数字有空项。修改如下。某年甲乙两医院内外科住院病人比较医院名称内科外科甲医院8001200乙医院7501250该表也可以用四条横线,即增加合计线,修改如下:某年甲乙两医院内外科住院病人比较医院名称内科外科合计甲医院80012002000乙医院75012502000合计155024504000实用卫生统计学作业3教学要求通过本次作业使学生掌握第七章、第八章、第九章的有关概念、有关理论及一些常见计算。学生作业 (完成时间: 年 月 日)一、名词解释(每题4分,共20分)1四格表资料:两个样本率的资料又称为四表格表资料,在四格表资料中两个样本的实际发生频数和实际未发生频数为基本数据,其他数据均可由这四个基本数据推算出来。2参数检验:是一种要求样本来自总体分布型是已知的,在这种假设的基础上,对总体参数进行统计推断的假设检验。3非参数检验:是一种不依赖总体分布类型,也不对总体参数进行统计推断的假设检验,它的假设检验是推断总体分布是否相同,考察的是总体的分布情况。4直线相关系数:它是说明具有直线关系的两个变量间,相关关系的密切程度与相关方向的统计指标。总体相关系数用表示,样本相关系数用r表示。相关系数没有单位,取值范围是1r1,r的绝对值越大表明两变量的关系越密切。5完全负相关:这是一种极为特殊的负相关关系,从散点图上可以看出,由x与y构成的散点完全分布在一条直线上,x增加,y相应减少,算得的相关系数r=1。二、填空题(每空1分,共20分)1当样本含量n足够大,且样本率P和1p均不太小,如np和n(1p)均大于5时,样本率的分布近似正态分布。2进行两样本率的u检验的条件是:当n1及n2足够大,且p1、(1p1)和p2、(1p2)均不太小,如n1p1和n1(1p1)及n2p2和n2(1p2)均大于5时。3非参数检验适用于任何分布的资料,如严重偏态分布的资料,又如分布形状不明的资料。4直线相关分析方法有图示法和指标法两种。5医学研究中用于分析两变量之间的关系常用的统计学方法有直线相关和回归。三、选择题(每题1分,共10分)1在比较完全随机设计两个小样本的均数时,需用t检验的情况是(A )。A两总体方差不等 B两样本方差不等 C两样本均数不等 D两总体均数不等2四格表资料的卡方检验时无需校正,应满足的条件是( D )。 A总例数大于40 B理论数大于5 C实际数均大于1 D.总例数大于40且理论数均大于或等于53四格表资料卡方检验,当检验水平等于0.05时,其界值是( B )。 A.X20.05,1=1.96 B.X20.05,1=3.84 C. X20.05,2=5.99 D.X20.05,4=9.494两样本比较的符合秩和检验中,备择假设是( B )。 A两个样本的总体分布相同 B两个样本的总体分布不相同 C两个样本总体假均数相同 D两个样本的总体均数不相同5秩和检验与t检验比较,其优点是( D )。 A检验效率高 B计算方法简便 C公式更为合理 D不受分布限制6作配对比较的符号秩和检验时,其统计量是( B )。 AF值 BT值 CH值 DM值7配对计量资料,差值分布不接近正态分布,宜用何种检验?( C ) A配对t检验 BX2检验 C秩和检验 D检验8对双变量资料作直线相关分析时,所建立的直线回归方程与各散点之间的关系是( B )。 A各散点都将落在由直线回归方程所确定的回归直线上 B各散点与该回归直线的纵向距离平方和是最小的 C要求各散点应尽量靠近该回归直线 D以上都不对9相关系数r>0时,散点图中散点的分布形态为( D )。 A散点完全在一条直线上 B散点完全在一条直线上,且随x增大,y值有增大趋势 C散点分布大致呈直线,且随x增大,y值减小 D散点分布大致呈直线,且随x增大,y值增大10.散点呈直线趋势分布,当x值增大,y值则相应减少,可初步判断两变量为( B )。 A.正相关关系 B负相关关系 C无相关关系 D不能确定四、简答题(每题5分,共20分)1统计中的回归关系与数学上的函数关系有何区别?数学上的函数关系式y=abx,是表示变量x与y是严格意义上的一一对应关系。每一个x 值,都会有一个确定并且唯一的y值与之对应。在坐标系中,所有的点(x,y)形成一条直线。而统计中的回归式,其因变量是y的估计值,它的数值大小与实际的y值是存在一定差距的。从散点图来看,所有的点(x,y)不会全落在回归直线上,而只能是围绕其较均匀地分布。2请总结直线相关系数r与直线回归系数b的意义及特点?直线相关系数r是说明具有直线关系的两个变量间,相关关系的密切程度与相关方向的统计指标。总体相关系数用表示,样本相关系数用r表示,r是的估计值。相关系数没有单位,取值范围是1r1。r值为正,表示两变量呈正相关,x与y变化趋势是正向的。r值为负,表示两变量呈负相关,x与y呈反方向变化,通常r的绝对值越大,表示两变量相关关系越密切。直线回归系数b即回归直线的斜率,b0表示直线从左下走向右上方,y随x增大而增大;b0,表示直线从左上方走向右下方,y随x增大而减小;b=0则直线与x轴平行,x与y无直线关系。b的统计学意义是x每增加(减)一个单位,y平均改变b个单位。3简述四格表资料的X2检验的适用条件、配对资料及行列表资料的卡方检验的条件?何种情况下需要使用校正公式?四格表资料X2检验:一般用于两样本(大样本或小样本)率的比较。当n40,且所有T5时,用X2检验的基本公式或四表格专用公式。当P时,用四格表资料的确切概率法。当n40,但有1T5时,需用四表格X2检验的校正公式。或改用四格表资料的确切概率法。若n40,或T1时,不能计算X2值,需用确切概率计算法。配对资料X2检验:用于配对计数资料差异性的假设检验,即同一受试对象实验前后比较、同一样本用两种方法检验以及配对的两个受试对象接受两种不同处理等资料。若b+c40,不需要校正;若b+c40,需计算x2校正值。行×列表(R×C表)的检验X2检验主要用于解决多个样本率的比较;多个样本构成比的比较;双向无序分类资料的关联性检验。行×列表中的理论频数不应小于1,或1T5的格子数不宜超过格子总数的1/5,否则将导致分析的偏性。若理论数太小可采取下列方法处理增加样本含量以增大理论频数;删去上述理论数太小的行和列;将太小理论数所在的行或列与性质相近的邻行或邻列中的实际数合并,使重新计算的理论数增大。4简述参数检验和非参数检验的区别?各有何缺点?区别:参数检验要求样本来自正态总体,而非参数检验则不对总体分布有任何要求;参数检验是对总体参数进行的检验,而非参数检验考察的是总体的分布情况。优缺点:参数检验的优点是能充分利用所提供的信息,检验效率较高。缺点是对样本所对应的总体分布有比较严格的要求,因此适用资料有限。非参数检验的优点是不受总体分布类型的限制。适用于任何分布的资料。其缺点是不直接对原始数据作检验,从而有可能会损失信息并降低其检验效率。五、计算题(每题10分,共30分)1某水泥厂在生产时,数天内即有部分工人患职业性皮炎,在本生产季节开始,随机抽取18名工人穿上新防护衣,其余工人仍穿旧防护衣。生产一段时间后,检查两组工人的皮炎患病率,资料见下表,问两组工人皮炎患病率有无差别?(请用统计软件)表3.1 穿新旧防护衣工人皮炎患病情况防护衣种类人数患者数新182旧3211合计50132参考值见下表自由度概率,P=10.2500.1000.0500.0250.0102值1.322.713.845.26.63解:本题为两小样本率的比较,n=50>40且最小的理论频数1<T=(18×13)÷50=4.68<5,用四格表资料2检验的校正公式。H0:,即两组工人皮炎总体患病率相等H1:,即两组工人皮炎总体患病率不相等0.051查2界值表(见上表),得20.10,1=2.71>2.144,P>0.10,按0.05水准不拒绝H0,不能认为两组工人皮炎患病率有差别。Spss 13.0 计算:数据结构 Variable:group,Type N , Width 8, Decimals 0, Label 分组Variable:status,Type N , Width 8, Decimals 0, Label 状态Variable:count,Type N , Width 8, Decimals 0, Label 例数对count加权:Data=>Weight Cases=>Weight Cases by=>Frequency Variable:count计算分析:Analyze=>Descriptive Statistics=>Crosstabs=>Row:group;Column:status;Satistics中选Chi-square =>Continue=>OK其中Pearson Chi-Square中不校正2值,Continuity Correction为校正2值。2某职防所测得10名铅作业工人和10名非铅作业工人的血铅(mol/L),问两组工人的血铅含量是否不同?(请用统计软件)表3.2 两组工人的血铅含量比较铅作业工人秩次非铅作业秩次1.05120.3430.97110.2211.35140.5450.8990.5461.87200.2921.56190.5671.34160.4541.22150.7681.38170.94101.45181.1013n1=10T1=151n2=10T2=59解:血铅值根据经验不符合正态分布,现用完全随机设计的两样本比较秩和检验。H0:两组工人的血铅含量总体分布相同H1:两组工人的血铅含量总体分布不相同0.05n1= n2=10, n1n2=0,例数相等,任取一组秩和为统计量T。本例取铅作业组的统计量T=T1=151。查T界值表,得双侧0.05水平下统计量T的界值范围是78132。本例T=151,在界值范围之外,故P<0.05,按0.05水准拒绝H0,接受H1,可认为两组工人的血铅含量不同。Spss 13.0 计算:数据结构 Variable:group,Type N , Width