中医药统计学与软件应用笔记重点.docx
《中医药统计学与软件应用笔记重点.docx》由会员分享,可在线阅读,更多相关《中医药统计学与软件应用笔记重点.docx(77页珍藏版)》请在三一办公上搜索。
1、中医药统计学与软件应用笔记重点绪论统计学家 C.R.劳先生在统计与真理怎样运用偶然性中指出:在终极的分析中,一切知识都是历史;在抽象的意义下,一切科学都是数学;在理性的基础上,所有的判断都是统计学。一、 统计学的概念、发展简史及主要内容1.统计学 :是以概率论和数理统计为基础,对研究对象的数据进行搜集、整理和分析,揭示事物总体特征和规律的方法论科学。2.中医统计学 :是以概率论和数理统计的原理和方法为基础,以中医理论与实践为主体,通过对数据的搜集、整理和分析,达到探讨中医理论与方法内在规律的目的。3.统计学的发展趋势:依赖数学。与计算机技术结合。与实质性学科、统计软件、现代信息相结合,所发挥的
2、功效日益增强。从描述事物现状、反映事物规律,向抽样推断、预测未来变化方向发展。4.统计学的主要内容研究设计:专业设计、统计学设计统计描述:统计指标、统计图表统计学的基本概念、原理和思维方法统计推断:参数估计、假设检验二、统计工作的基本步骤和特点1.统计工作的基本步骤(1)统计学设计(2)搜集资料:常规保存的记录;现场调查记录;实验 / 试验记录;医学文献 / 网络信息。( 3)整理资料:检查;审核;计算机检查;分组。( 4)分析资料2.统计学认识现象的特点( 1)数量性:( 2)群体性:( 3)具体性:(4)概率性:三、统计学中常用的概念1总体 (population) :是根据研究目的确定的
3、同质观察单位的集合。例 河北省河北省18 岁男性的身高和体重分布某性红地18 岁身高在170-175cm 男性的体重分布2005 年健康成年男细胞数有限总体:指总体限定于特定的空间、时间范围内有限个观察单位。无限总体:指没有空间和时间范围限制的总体。2样本 (sample) :从总体中随机抽取的有代表性的一部分观察单位的集合。样本的可靠性:指总体确定后,样本中的每一个观察单位确属预先规定的同质总体。样本的代表性:即样本能够充分反映总体的真实情况。3随机 (random) :即在抽样、分组、安排试验顺序时,让总体中每个受试者或观察单位都有同等的机会被抽中、被分配或被安排, 而不受研究者的主观意愿
4、驱使。不能将随机理解为随便。4事件 (event) :指事物发生某种情况或在调查、观察和实验中获得的某种结果。确定性事件是可预言在一定条件下必然发生的事件,发生的概率为1。0 1随机事件:指一定条件下可能发生也可能不发生的不确定性事件,发生的概率介于之间。模糊事件:事物本身的含义不确定的现象。5频率 (frequency) : 对于随机事件,在相同的条件下进行了n 次实验,事件发生的次数为,比值 /n 为频率,记为 fn(A);概率 (probability) : 描述某随机事件发生的可能性大小,统计符号为,0 1,记为 P(A)。当 时,频率 fn(A) 概率 P(A)。P 0.05 或 P
5、 0.01小概率事件:表示某事件发生的可能性很小,在医学研究中,习惯上把的事件称为小概率事件。6变异 (variation) :总体中各个体之间的差异性。同质是相对的, 研究对象只是在某一方面是性质相同的,同类的观察对象之间往往也存在着变异。变异是绝对的、客观存在的。7误差( error ):指测量值与真值之差。过失误差:也叫粗差。观测者粗心大意造成的误差。系统误差:由于仪器未校准、试剂未标定、观测标准未统一等固定原因造成的误差。测量误差:由事先难于预料的实验或观察条件的随机波动造成的误差。抽样误差:由抽样引起的样本指标(统计量)与总体指标(参数)的差别。8统计量 (statistical)
6、:是反映样本特征的统计指标。统计符号为小写的英文字母。如样本均数x 、样本标准差s 、样本率p 等。9参数 (parameter) :是描述总体特征的统计指标。统计符号为小写的希腊字母。如总体均数 、总体标准差 、总体率 等。10.统计资料的类型根据研究目的,对研究对象的某些特征进行观测,将这些观测指标或项目称为变量的具体数值(变量值 )构成了统计数据或统计资料 。变量 。统计资料分为两类:值变量 (numerical variable) :亦称定量资料。是指对每个观察单位用计量方法测得某项数值大小所获得的资料。特点为其变量值大多有度量衡单位,其具体取值通常是正实数(零、正整数和小数)。如身高
7、 1.75m、体重 68kg、血压 9.6kPa、血糖 6.8mmol/L 。分类变量 (categoricalvariable) :又称定性资料。指对每个观察单位按某一方面的特征、性质或等级分组计数而得到的资料。特点是变量值表现为互不相容的属性或类别,无度量衡单位。分类变量又可分为两类:序分类变量:又称为名义资料。具体取值通常是具有某种属性或特征的个数。特点是可在非数字中取值,各类之间具有性质上的差异。可分为二分变量和多分变量。二分变量是按互不相容的属性分成两类的资料。多分变量是按某种属性或特征分成两类以上的资料。序分类变量:亦称等级资料或半定量资料。具体取值也是具有某种属性或特征的个数,但
8、不同取值之间有半定量的关系。特点是其各类别间有等级、程度或量的差异, 即可按数量的相对大小或程度的高低排出顺序。四、 学习中医统计学的目的1.顺应中医药学的发展趋势。2.强化中医科研的计划性和科学性。3.拓宽研究思路。4.学会正确地运用统计方法和合理地解释统计结果。五、 学习中医统计学的注意事项1理解和领会基本概念和原理,切忌死记硬背。2不追究公式的来源和推导,但要掌握其应用条件。 3重视分析问题和解决问题能力的培养。4学会使用统计软件。数值变量资料的统计描述统计描述概念:即利用原始数据, 选择适宜的统计指标及统计图表, 简明准确地探察数据的分布类型和数量特征的基本统计方法。目的:是根据样本中
9、所包含的信息,客观、正确地推论出其总体规律。第一节频数分布频数: 相同观察值或观察结果出现的次数。分布: 指随着随机变量取值的变化,其相应的概率变化的规律性。频数分布: 观察值 (变量值 )按大小分组,各个组段内观察值个数(频数 )的分布,是了解数据分布形态特征与规律的基础。一、 频数分布的特征1.集中趋势: 指一组变量值的集中倾向或中心位置。2.离散趋势: 即一组变量值的离散倾向。二、频数分布的类型1.对称分布: 指集中位置居中、左右两侧的频数分布基本对称的频数分布。2.非对称分布:亦称偏态分布,是集中位置偏倚、两侧频数的分布不对分为正态分布和非正态分布两称的频数分布,可分为正种类型。偏态和
10、负偏态分布。三、频数分布表/ 图的作用1.直观地揭示数据的分布类型和特征。2.便于发现资料中某些远离群体的特大或特小的可疑值。3.描述频数分布的集中趋势与离散趋势。4.便于进一步计算统计指标。四、频数表概念: 频数分布表的简称。指观察值或某些类别及其相应的频数按一定顺序排列的表格。例题:随机抽取某地 120例正常人,测得血清铜的含量( mol/L) 如下表,试编制频数表。13.8412.5313.7014.8917.5313.1918.8214.7317.4413.9914.1012.2912.6114.7814.5914.7118.6219.0410.9513.8110.5313.5611.
11、4813.0716.8817.0417.9812.6711.039.2315.0414.0915.9011.4814.6413.6414.3915.7413.9911.3117.6116.2613.5311.6813.2511.8814.2115.2115.2913.7014.4511.2319.8413.1115.1511.70频数表的编制方法:1.找极值: Xmax 19.84, X min 9.232.求全距: XmaxX min , 19.84 9.23 10.613.定组数: K=8 15。4.求组距: i= / ( K 1)(i 为组距, k 为组段数, R 为全距) i=10.6
12、1/(11-1)=1.061 15.确定各组段的上下限:6.归纳计数:某地 120 名正常成年人血清铜含量频数表组段频数频率 () ()9.0032.532.510.0043.375.811.001210.01915.812.001310.83226.613.001714.24940.814.002218.37159.115.001815.08974.116.001310.810284.917.00119.211394.118.0054.211898.319.0021.7120100.0合计120100.0五、频数图概念 :亦称直方图,是以直方的宽度代表组距,以直方的面积大小表示频数的多少、以
13、直方面积在总面积中的比例表示频率大小的图形。等距分组以横轴表示变量,以纵轴表示频数。不等距分组以横轴表示变量,但纵轴是频数除以组距。第二节数值变量资料集中趋势的描述集中趋势: 是度量变量值集中位置和平均水平的数量指标,其代表值为平均数。平均数: 是描述一组观测值平均水平的指标,是对同质基础上的样本或总体一般特征的表达指标。算术平均数、几何平均数、中位数、众数一、算术平均数1.定义: 算术平均数简称均数。是一组观察值的和与观察值个数之商。是数量上的平均。用于说明一组观测值的趋中位置或平均水平。表示样本均数,表示总体均数。2.适用条件: 正态或近似正态分布的资料。如生理指标。3.计算方法: 直接法
14、:有n 个观察值,分别为X1, X2, ,Xn,式中 是求和的符号。例题: 10 名 12 岁男孩身高 (cm)分别为 125.5, 126.0, 127.0, 128.5, 147.0,131.0, 132.0,141.5, 122.5,140.0。求平均数。加权法:用于观察值中相同数据较多或频数表资料。 1737.00/120 14.48( mol/L)二、几何均数1.定义: 个数值连乘积的次方根。是比例或倍数上的平均。统计符号。2.应用条件: 等比数列资料。如抗体滴度。3.计算方法:例题:6 份血清抗体滴度为1:2, 1:4, 1:8, 1:8, 1:16, 1:32,求平均数。平均滴度
15、为1:8。三、中位数1.定义:将一组观察值按由小到大的顺序排列,位次居中的数值即中位数。是位次上的平均。统计符号。2.应用条件: 不拘分布、 分布类型不明或一端无界的资料。如潜伏期、 治愈时间和发病年龄。3.计算方法:n 为奇数时n 为偶数时式中、及均为下标,表示有序数列中观察值的位次。例题: 某医院用大黄粉治疗胃热血瘀型血证病人9 例,其大便转阴天数分别为3、 4、5、 7、 10,求其中位数。本例 n = 9, M = X5 = 3(天 )。1、1、2、2、如果本例n=10,第 10 个数值为16 天,则M=(3+4)/2=3.5( 天)。数表法用于观察值例数较多或频数表资料。为所在组段的
16、下限;i 为该组段的组距;m 为该组段的;n 为总例数; fL 为小于的各组段的。例题: 905 例男性银屑病病人的发病年龄年龄频数 f累计频数 f累计频率 p ()1054545.9710252306( f )33.8120346(f )65272.043012878086.19408486495.47502989398.6760589899.23707905(n)100.00 20 (10/346)(905/2 306) 24.23(岁 )第三节数值变量资料的离散趋势描述离散趋势: 亦称变异性, 是描述一组同质观察值的变异程度大小的指标。不但反映研究指标数值的稳定性和均匀性,而且反映集中性
17、指标的代表性。极差、四分位数间距、方差、标准差、变异系数。变异指标示意(两个学生五门成绩分布学生科目)变异指标SSCV78798081828042.51.581.9860708090100804025015.8119.76、两个学生五门课程成绩的均数都是80,但各科成绩分布情况却不相同。较集中,变异较小;较分散,变异较大。一、全距()概念: 亦称极差,是一组观察值中最小值与最大值之差,反映个体差异的范围。优点: 1.意义明确、计算简便。2.稳定性较差。 3.受 n 大小的影响。 4.可应用于任何分布。二、百分位数和四分位间距1.百分位数: 是把一组观察值从小到大排列,分为100 等份,与位次所
18、对的数值即为第百分之位数。以x 表示。一个 x 将全部观察值分为两部分,理论上有的观察值比它小,有 (100 )的观察值比它大。是一种位置指标。M即。2.四分位数间距:是上四分位数Q ( )与下四分位数Q ( )之差,符号为QR。是中间 50观察值的极差。QR Q Q用途:常用来描述偏态分布资料分布以及分布的一端或两端无确切数值资料的离散程度。表示参考值范围百分位数的另一个重要用途是表示偏态分布资料的参考值范围。例题: 905 例男性银屑病病人的发病年龄(同前)计算方法:10 (10/252) (905 0.2554) 16.84(岁 ) 30 (10/128) (905 0.75652) 3
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中医药 统计学 软件 应用 笔记 重点

链接地址:https://www.31ppt.com/p-4235064.html