教育统计学知识点学前教育统计学复习总结.docx
教育统计学知识点学前教育统计学复习总结1.1教育统计学是运用数理统计的原理和方法,研究教育问题的一门应用科学。它的主要任务是研究如何搜集、整理、分析由教育调查和教育试验所获得的数字资料,并以此为依据,进行科学推断,揭示教育现象所蕴含的客观规律。 1.2教育统计学的研究内容从具体应用的角度来分,可分为性质类别和数量类别。性质类别是按事物的不同性质进行分类。数量类别是按数值的大小进行分类,并排成顺序。 3.1统计表的结构及其编制的原则和要求 1.标题:表的名称;上方;简明扼要;2.表号:表的序号;左方;时间顺序。3.标目:表中对统计数可以分成:1.描述统计2.推断统计3.试验设计 1.3统计推理的方法是归纳法。1.4教育统计学是教育科研定量分析的重要工具。 1.5教育统计学的的具体意义:可以顺利的阅读运用统计方法进行定量分析的科研报告和文献,从中可以间接地学习国内外先进的研究成果;可以提高教育工作的科学性和效率;为学习教育测量和教育评价打下基础。 1.6变量:试验结果的数值不是恒定不变的量,我们把它称为变量,也说是 可变的数量标志。常量:数值保持恒定的量。随机变量:能表示随机现象各种结果的变量称为随机变量。统计处理的变量都是随机变量。一般用X、Y、Z来表示。 1.7随机现象:第一,一次试验有多种可能结果,其所有可能结果是已知的;第二,试验之前不能预料哪一种结果会出现;第三,在相同的条件下可以重复试验。1.8标志:人或事物的属性或特征的名称。 1.9总体:是我们所研究的具有某种共同特征的个体的总和。有同质性、大量性、变异性的特点。 2.1个体:总体中的每个单位称为个体。 2.2样本:是从总体中抽取的作为观察对象的一部分个体。样本中包含的个体数目称为样本的容量,一般用n表示。样本中个体数目大于30称为大洋本,等于或小于30称为小样本。 2.3统计量:样本上的数字特征是统计量。也就是说,根据教育调查或试验获得的数据所计算出来的能够描述这组数据各种特征的数量是统计量。 2.4参数:总体上的各种数字特征是参数。也即反映总体上各种特征的数量是参数。 2.5数据的分类:经常性资料、专题性资料 2.6教育调查:是指在没有预定因子、不施行控制的条件下,对现成的教育方面有关客观事实所进行的观察和分析。它是教育科学研究中普遍采用的一种方法。从调查方法来分,可分为现情调查、回顾调查和追踪调查。从调查范围来分,可分为全面调查和费全面调查。 2.7教育实验:是指在预定的控制因子影响下,对教育方面有关客观事实所进行的的观察和分析。 2.8数据的种类数据就是随机变量的观察值。 1.按来源分:点计数据和度量数据。 点计数据是指计算个数所获得的数据。度量数据是指用一定的工具或一定的标准测量所获得的数据。 2.按随机变量取值是否具有连续性分: 间断型随机变量的数据:取值个数有限的数据 连续型随机变量的数据:取值个数无限的数据 2.9数据的统计分类:数据的统计分类,是指按照研究对象的本质特征,根据分析研究的目的、任务,以及统计分析时所用统计方法的可能性,将所获得的数据进行分组归类。它是对数据进行归纳、整理、简化、概括的第一步,为进一步分析研究打下了基础。统计分类不仅以研究对象的本质特性为依据,还要以研究目的、任务的需要为依据,当然也应当考虑到统计方法的可能性。分类标志按形式划分,据分类的项目。4.线条:四条基本线条;不宜多。 5.数字:一般用阿拉伯数字表示;如又小数,数位要一致,要对齐;尽量不要有空格;咱却数字可用省略号或问号表示;无数字可画横杠。6.表注:不是必要组成部分;下方;补充说明表的来源或补充说明数字;字号不要大于表中的其他文字。 基本原则:简单明了重点突出 3.2统计表的种类 1简单表:只列出观察对象的名称、地点、时序或统计指标名称的统计表为简单表。2分组表:只按一个标志分组的统计表为分组表。3复合表:按两个或两个以上标志分组的统计表为复合表。 3.3频数:某一个随机事件在n次试验中出现的次数称为这个随机事件的频数。一般用f表示。 频数分布:各种随机事件在n次试验种出现的次数分布称为频数分布,即把随机事件出现的次数都呈现出来。频数分布表:把频数分布用表格的形式表示出来就是频数分布表。 3.4频数分布表分类: 1.简单频数分布表间断变量的频数分布表连续变量的频数分布表2.累积频数和累积百分比分布表:累积频数就是把频数一组一组累加起来,得到的频数叫累积频数。累积百分比就是把频数用百分比变成相对频数。 用表格把这两种频数表示出来就是累积频数分布表和累积百分比分布表。 3.5累积频数分布表制作A.先制作频数分布表B.从最低一组的频数开始登记 3.6统计图是用来表达统计指标与被说明的事物之间数量关系的图形。它是整理数据的一种方法。在运用统计图时,一般附有统计表。 3.7统计图的结构及其绘制规则 统计图由标题、图号、标目、图形、图注等项构成。 1.标题。简明扼要;切合内容;必要时注明时间地点;字体在图中为最大;一般在图的下方。 2.图号。按出现的顺序编序号;在图题的左前方。 3.标目。即统计的项目。对于有纵横轴的统计图,应在纵横轴上分别标明统计项目及其尺度。 4.图形。图形线在图中为最粗,要清晰,图形的高与宽之比3:5为宜,以美观为准。5.图注。不是必要组成部分,而是补充说明;文字简明扼要;字体要小;写在图题的下方。 3.8算术平均数的概念及特性 1.算术平均数是所有观察值的总和除以总频数所得之商,简称平均数或均数、均值。 2.算术平均数的特性:观察值的总和等于算术平均数的N倍,即:X=x/n各观察值与其算术平均数之差的总和等于零,即:x=Xn 若一组观察值是由两部分或几部分组成,这组观察值的算术平均数可以组成部分的算术平均数而求得。即:X= naXa+nbXb/na+nb 各个观察值与其算术平均数之差的平方和最小。即:(x-X)2=min 3.计算法:X=fx/n 3.9算术平均数:最常用,优点也最多。 优点:1感应灵敏2严密确定3简明易懂,计算简便4适合代数运算5受抽样变动的影响较小 缺点:1易受两极端数值的影响2有一两个数据模糊不请时,无法计算。这时通常选择中位数。 4.1中位数是位于以一定顺序排列的一组数据中央位置的数值,在这一数值上、下各有一半频数分布着。用Md表示。它是集中量的一种指标,也是百分位数的一种。 4.2中位数频数分布表计算法:Md=Lmd+(n/2-n1)i/fmd 4.3百份位数是位于以一定顺序排列的一组数据中某一百分位置的 计算方法: 常用的百分位距有两种: P90=L90+(0.9n-n1)i/f90 P10=L10+(0.1n-n2)i/f10 5.6平均差的概念:所谓平方差就是每一个数据与该组数据的中位数离差的绝对值的算术平均数。通常用MD表示。 5.7平均差的计算方法 1.原始数据计算法:MD=x-Md/n 2.频数分布表计算法:MD=fx-Md/n 评价1.优点:意义明确,计算容易,每个数据都参加了运算,考虑到全面的离差,反应灵敏。 2.缺点:因为计算要用绝对值,不适合代数运算。正是由于这个缺点,在统计分析中应用较少。 Pp=Lp+(pn-n1)i/fp 4.4中位数 :优点有严密确定、容易理解、计算简便、受抽样变动影响较小 主要优点,即区别于别的集中量的优点在于适用于以下几种情况:1一组数据中有特大或特小两极端数值时;2一组数据中有个别数据不确切、不清楚时; 3资料属于等级性质时。缺点:1反应不灵敏,所以代表性不如算术平均数;2不稳定可靠3不适合代数运算所以,中位数一般情况下不用,除非别无选择。 4.5众数是集中量的一种指标,用M0表示。 理论众数是指与频数分布曲线最高点相对应的横坐标上的一点。 粗略众数是指一组数据中频数出现最多的那个数。 4.6众数的求法 1观察法。直接查找粗略众数的方法 先把数据列出来,然后找出现频数最大的数,即为众数。 2公式计算法: 皮尔逊的经验法:M0 3Md-2X 使用条件:频数呈正态分布或者接近正态分布。 金氏插补法:M0=Lmo+fa/fa+fb * i当频数呈正态分布或偏态分布时,都可使用此公式。 4.7众数 优点少:可以很快捷地知道变化的趋势;知道一组数据的代表值。如了解一个年级的代表年龄。缺点多:不准确,受分组的影响比较大;受波动的影响比较大;受抽样的影响比较大。 不适合作进一步的代数运算。 所以只有当我们想了解数据的大概水平时,才使用。 4.8算术平均数,中位数,众数三者的关系 当频数分布呈正态时,三者重合为一点。 当频数分布为正偏态时,X-Md/X-M0=1/3,且X>Md>M0, 负偏态时,X<Md<M0. 4.9加权平均数:是不同比重数据的平均数。Xw=WX/X 5.1几何平均数:Xng=x1x2xn 当一个数列的后一个数据时以前一个数据为基础成比率增长时,要用几何平均数求其平均增长率。常用作速率的集中量。 5.2调和平均数:是一组数据倒数的算术平均数的倒数,亦称倒数平均数。XH=1/(1/x)/n 5.3全距一组数据的最大值和最小值之差又称极差。 5.4四分位距: 以一定顺序排列的一组数据中间部位50%个频数距离的一半作为差异量指标。 原始数据计算法: QD=Q3-Q1/2 Q3 表示第三个四分位数 Q1 表示第一个四分位数 Q1=LQ1+(n/4-n1)i/fQ1 5.5百分位距:百分位距是指两个百分位数之差。 5.8方差也叫变异数,是指离差平方的算术平均数。每个数据与算术平均数的离差平方的平均值。 其定义公式为:ó2(x-X)2x=/n数学性质:1、ó2=X2-x22、ó2=(x-A)2/n-(x-A)/n2 3、ó2=x2/n-24、ó2=i*(x-A)/i2/n-i*(x-A)/n2 /n 标准差是指离差平方和平均后的方根。其定义公式为:ó=(x-X)2x/n 二、方差和标准差的计算方法 1.原始数据计算法:ó2/n-2x=x 2.频数分布表计算法:ó22x=fx/n-评价1.优点:反应灵敏;严密确定;适合代数计算;计算简单;用样本数据推断总体差异量时,方差和标准差是最好的估计量。一般和算术平均数结合在一起使用。2.缺点:不太容易理解;易受两极端数值的影响;有个别数值模糊时,无法计算;单位的平方不好理解。 5.9差异系数的用途:比较不同单位资料的差异程度;或比较单位相同而两个平均数相差较大的资料的差异程度;可判断他书差异情况。所谓差异系数是指标准差与其算术平均数的百分比。 用公式可表示为:CV=óx/X*100% 6.1差异系数的应用条件: 主要用于等比量表的数据。即既具有等距的单位,有具有绝对的零点 6.2偏态量有两种计算方法。 1.利用算术平均数与众数或中位数的距离来计算 公式为:SK=X-M0/óx当SK=0,则分布呈对称型;当SK>0,分布为正偏态;当SK<0,分布为负偏态。 由于M0具有不稳定性,不确定性,常可用中位数和算术平均数来表示众数。SK=3/óx 2.根据动差来计算:用三级动差来计算频数分布的偏态系数:u=(x-X)3/n或u333=f(x-X)/n, 则a=(x-X)3/n/ó3333x或a3=f(x-X)/n/óx 当a3=0,表明频数分布呈对称形;a3>0,表明频数分布呈正偏态;a3<0,表明频数分布呈负偏态。当总频数n>200时,所计算出的偏态系数才比较可靠。 二、峰态量计算方法:1.用两个百分位距来计算。判断是高狭峰还是低阔峰。Ku=P75-P25/2(P90-P10) 当Ku=0.263,分布呈正态峰,当Ku<0.263,分布呈高狭峰;Ku>0.263,分布呈低阔峰。 2.根据动差来计算。a(x-X)4/n/ó44=x-3或a4=f(x-X)4/n/ó4x-3当a4=0,分布呈正态峰;a4>0, 分布呈高狭峰;a4<0,分布呈低狭峰。只有当n>1000时,所计算出的峰态系数才比较可靠。