《心理统计学》总复习要点17章[4].docx
心理统计学总复习要点17章4心理统计学总复习要点 第一章、第二章 基本概念及次数分布表 第一节 基本概念 一、基本概念 1连续变量与离散变量(不连续变量) 变量分为连续变量与离散变量(不连续变量)。连续变量则可以在量表上的任何两点加以细分,可以取得无限多个大小不同的数值。 不连续变量又称离散变量或间断变量,则在量表上的任何两点中只能取得有限个数值。是一种只能取特殊值而不能取任何值的变量,它代表一个点,而不是一段距离。 2总体、样本、个体 总体是指具有某一种特征的一类事物的全体,构成总体的每一个基本元素称为个体,在总体中按一定规则抽取的一部分个体,称为总体的一个样本。 二、测量水平 心理测量的工具一般可以分为四种水平,它们是由测量工具量尺的水平决定的,量尺也称为尺度。 量尺(Ratio Measurement) 用这样的量尺测量出的数据,可以进行加、减、乘和除运算。这种测量水平的数据特征是有相等单位和绝对零点。用这种量尺测量得到的数据变量为比率变量。 等距量尺(Interval Measurement) 只有相等单位,没有绝对零点,这种测量工具称为等距量尺。等距量尺测出的数据可以进行加和减的运算,而不能进行乘和除的运算。但是,等距数据的差值可以进行乘、除运算,因为等距数据的差值有一个绝对零点,两个数值相等,差值即为零。 用这种量尺测量得到的数据变量为等距变量。 顺序量尺(Ordinal Measurement) 顺序量尺又叫等级量尺,它的特点是:既无绝对零点,又无相等单位。用这种量尺对研究对象进行测量,只能给对象排个顺序。 顺序量尺的测量结果原则上不能进行加、减、乘、除四则运算。如有必要的话,只能进行不等式运算。用这种量尺测量得到的数据变量为顺序变量。 分类量尺(Nominal Measurement) 分类测量不包含任何类间数量关系的假定,仅仅是把测量对象分为相同或相异,但在性质上没有哪一类较大,哪一类较小之分。即无大小之分,也无等级之分。分类标准称为分类量尺。用这种量尺得到的数据变量为分类变量。 三、常见数据的特点 数据分类与特点 1.计数数据 1 (1)概念:是指计算个数的数据。 (2)特点:是非连续的离散数据。它的统计方法具有独特性。 2.测量数据 测量数据是指借助于一定测量工具或依据一定测量标准所获得的数据。 (1)等比数据:指具有测量的绝对零点,又有相等单位的测量数据。 (2)等距数据:指没有测量的绝对零点,只有相等单位的测量数据。 (3)等级数据:是指只依据数据的大小、高低、快慢等属性排出顺序的数据。 3数据特点 随机性 教育与心理研究中的数据具有随机性,即在相同的实验条件下,或同一个人对同一个刺激的反应事先无法确定,具有偶然性,而且观测到的数据不止一个,是随机波动的。 (2)离散性 教育与心理研究中的每一个数据都是离散的,并不连续。即在相同的实验条件下,或对同一个刺激,不同人的反应是不同的,数据分散。 (3)变异性 数据的变异性是指数据的波动有一定的规律,在一定范围内波动。因此波动是可以预测的。 四、统计图 条形图 它主要用于表示离散性变量的统计事项。条形图用宽度相同的长条的长短表示各事物间数量的大小与数量之间的差异。 (二)圆形图 又称作饼图。适用于间断性的数据资料,它以单位圆内各扇形面积所占整个圆形面积的百分比来表示各统计事项在其总体中所占相应比例的一种图示方法。 (三)线形图 线形图是以起伏的折线来表示某种事物的发展变化及演变趋势的统计图。适用于连续性资料。 直方图 直方图是表示连续性资料的频数分配,它是以各组上下限上矩形的面积表示频数分配的一种条形图,是统计学中常用而又有特殊意义的一种统计图。 散点图 又称点图,散点图是用平面直角坐标系上点的散布图形来表示两种事物之间的相关性及联系模式。散点图适合于描述二元变量的观测数据。 第三节 次数分布表与次数分布图 所谓次数分布,指的是一批数据中各个不同数值所出现的次数情况,或者是指一批数据在量尺上各等距区组内所出现的次数情况。对数据进行分组归类,考察数据在量尺上各等距区组内的次数分布情况,并把这种情况用规范的表格形式加以体现,则为次数分布表,其实质是反映一批数据在各等距区组内的次数分布结构。若用图形来表达,那就叫做次数分布图。 一、次数分布表 (一)次数分布表的编制步骤 1求全距 2 全距指在一批数据中最大数与最小数之间的差距,用符号R表示,计算公式为: R=Max-Min 2定组数 定组数就是要确定一下把整批数据划分为多少个等距的区组,用符号K表示,它的大小要看数据的多少而定。如果数据来自正态总体,则可利用下述经验公式来确定组数: K=1.87(N一l)2/5 上述公式中的N为数据个数。 3.定组距 组距用符号i表示,其一般原则是取奇数或5的倍数:i=R/K 4.列出分组区间(组限) 组限是每个组的起始点界限。要求是: 高区间内包含最大值,最低区间包含最小值。 最高组和最低组的下限最好是组距的整倍数。 5.求组中值 组中值是各组上下限的中点的数值,其计算公式为 组中值=(组实上限十组实下限)/2 6.登记频数 设计一个表的格式来记录上述有关结果并对数据进行归类划记。 相对次数和百分次数分布表 相对次数就是各组的次数f与总次数N之间的比值,若以Rf表示相对次数,则 Rf=f/N 相对分布表包括:组别,组中值,频数。 相对次数是一个小数,如果将每个相对次数乘以百分之百,就可以得到相对应的百分次数。 相对次数分布表的用途: 相对次数分布表主要能反映各组数据的百分比结构。 实际累积次数分布表 累计次数分布表分为实际累积次数分布表和相对累积次数分布表。实际累积次数分布表又分为上限以下实际累积次数分布表和下限以上实际累积次数分布表。 上限以下实际累积次数分布表 从简单次数分布表的第一组逐项向上累加,得出每一组的累加值,一直加到最高一组,就构成一个累积次数分布表。 下限以上实际累积次数分布表 方法同上限以下累积次数分布表,但方向相反。 、相对累积次数分布表 累积相对次数是对相对次数进行累积的结果。 相对累积次数分布表也分为上限以下相对累积次数分布表和下限以上相对累积次数分布表。 1上限以下相对累积次数分布表 上限以下相对累积次数分布表是从最低组往最高组的方向依次把有关各组的相对次数进行累加的结果。 2下限以上相对累积次数分布表 下限以上相对累积次数分布表是从最高组往最低组的方向依次把有关各组的相对次3 数进行累加的结果。 二、次数分布图 1次数直方图 2次数多边图 3累积次数直方图 4累加次数曲线 5相对累加次数曲线 第三章 集中趋势的度量 第一节 集中量数 一组数据常用两类统计量来表现数据的特征。一类是表现数据的集中性质或集中程度;另一类是表现的数据离散性质或离散程度。 集中性质 数据的集中趋势的度量是指用一组数据的中心位置来度量一组数据的集中趋势,或是描述它们的中心位于何处。描述数据集中情况的统计量有多种,包括算术平均数、中数、众数、几何平均数、调和平均数、加权平均数等。 离散性质 离散性反映一组数据的分散程度,即次数分布的离散程度。对其数量化描述称为次数分布变异特性的度量或差异量数。中心位置相同的次数分布,其离散程度不一定相同。 一、算术平均数 一、算术平均数 算术平均数简称为平均数,也称其为均数或均值,常用字母u或X表示。算术平均数是用以度量连续变量次数分布的集中趋势的最常用的集中量数。它是“真值”渐近、最佳的估计值。公式: åXi X=N 算术平均数的性质: 1在一组数据中每个变量与平均数之差 (称为离均差)的总和等于0。 Sxi=0。 2在一组数据中,每一个数都加上一常数C,则所得的平均数为原来的平均数加常数C: S(Xi十C)=X十C N 3在一组数据中,每一个数都乘以一个常数C,则所得的平均数为原来的平均数乘以常数C: S(Xi·C)= CSXi =C·X N N (二) 加权平均数 加权平均数计算公式为: Mw = W1X1+W2X2+WnXn = SWiXi W1+W2+Wn SWi 4 式中:Wi为权重,所谓权数是指各变量在构成总体中的相对重要性。 几何平均数(Geometric mean) 几何平均数符号记作Mg。 有时又称作对数平均数。 1几何平均数的应用条件 当处理的数据有以下几种情形时,一般用几何平均数来表示数据的集中趋势: (1) 一组数据中任何两个相邻数据之比接近于常数,即数据按一定的比例关系变化。例如,在教育与心理研究中,求平均增长率; (2) 当一组数据中存在极端数据,分布呈偏态时,算术平均数不能很好地反映数据的典型情况; (3) 对心理学中的等距与等比量表实验的数据处理均可使用几何平平均数或其他集中量数 (如中数、众数)来反映数据的典型情况。 2几何平均数的基本公式 Mg =nÖX1·X2Xn 式中: n数据个数; X1数据变量的值 3在计算上常使用对数方法: lgMg= SlgXi N N 因此,几何平均数又叫对数平均数。 4几何平均数在教育与心理研究中的应用 (1) 等距与等比量表实验的数据处理 (2)教育与心理研究中平均增长率的计算 一组数据如果彼此之间变异较大,几乎是按一定比例关系变化,如教育经费的增加,学习、阅读的进步,学校招生人数的增加等,一般要求的不是平均数,而是增长率,这就需要用几何平均数计算平均比率,而不用算术平均数。 Mg=N-1XN/X1调和平均数 调和平均数用符号Mh表示。它的计算公式是: MH=11N1åXi=N1åXi公式中:N为数据的个数; Xi为变量值,随实验研究设计不同其含义不同。 因在计算中先将各数据取倒数平均,然后再取倒数,故又称倒数平均数。 在研究学习速度的实验设计中,一般常取两种形式: 1学习任务的工作量相同而所用时间不等 2学习任务的时间相同而工作量不等 二、中数 中数又称中点数,中位数,简写为Md,或Mdn。 5 首先把数据资料从大到小排成序列,位于中间位置的那个数据的测量值即为中数。也就是说,如果将数据依大小顺序排列,中数恰于中间,它将数据的数目分成较大的一半和较小的一半。 单列数目的情况 单列数目的情况是指,在一组数列中,每个数只有一个,即没有重复数。 求中数步骤: 如果数据未排序,先进行排序; 按数据总数的奇偶,分别按下列方法求。 1奇数目求中数的方法 当数据总数为奇数时,第(N+l)/2的那个数据的值即为中数。 2偶数目求中数的方法 当数据总数为偶数时,则取序列为第N/2与第N/2+1这两个数据的均数为中数。即将第N/2的数和第 N/2+1的数据的值相加,然后将它们的和除以2,所得数值即为中数。 重复数目的情况 重复数目是指一组数据中有数值相同的数。计算中数的方法基本同单列数目,但当位于中间的那几个数是重复数目时,求中数的方法就比较复杂了。具体算法如下: 1重复数目情况下奇数目求中数的方法 重复数目不在中间位置 方法同数据总数为奇数的求法,即第(N+l)/2的那个数据的值即为中数。 几个连续重复数目在中间位置 取序列中上下各N/2那一点上的数值为中数。 2重复数目情况下偶数目求中数的方法 如果数据个数是偶数,作法也同奇数基本相同。 中数是将整个数据的个数分作大的一半和小的一半,而不是将数据的值分作相等的两部分,即是个数的中数,而不是数值的中数。 (三)次数分布表求中数的方法 将原始数据整理成次数分布表后,求中数的方法同重复数目求中数是一样的,也是取序列中将N平分为两半的那一点的值作为中数。其具体步骤如下: 第一步:求N/2,并找到N/2所在的分组区间; 第二步:求含有中数那一区间以下各区间的次数和 (即中数区间下限以下的累加次数)记作Fb; 第三步:求N/2与Fb之差; 第四步:求序列为第N/2那一点的值。 求中数的公式可整理如下: Md=Lb+N/2-Fb fmd 同理,用精确上限计算可写出下式: Md=La+N/2-Fa Fmd 式中:La为中数所在分组区间的精确上限; Fa为该组以上各组的累加次数; i为组距。 6 中数的意义与应用 1优点:从中数的计算可以看出优点有以下几点: 计算简单,客观 不受极端数据的影响 2缺点:中数也有些不足: 反应不够灵敏 中数的数值不稳定 中数不能进一步再做代数运算 中数不能普遍应用 在一般情况下,中数只是在以下几种特殊情况时,才应用。这些特殊情况是: a观测结果的两端出现极端数 b次数分布中的两端数据或个别数据不清楚 c当作数据集中趋势的快速估计值 三、众数 众数又称为范数,密集数,通常数等。常用符号Mo表示。众数是指在一组数据中出现次数最多的数值,或次数分布中出现次数最多的那个数的数值。 (一)直接观察求众数 直接观察求众数的方法很简单,通过观察找出出现次数最多的数据就是众数。 (二)用公式求众数 众数可用公式计算,称为数理众数。 1皮尔逊的经验法 当数据分布接近正态的情况下可应用此种方法。 众数计算公式: Mo=3Md-2X 式中:Md中数; X平均数。 用皮尔逊的经验法计算的众数,只能作为一个近似值,它不受次数分布的影响。 2金氏(W.I·King)插补法 M。=Lb+ fa i fa+fb 式中:Lb为含众数这一区间的精确下限; fa为众数所在组的高一个分组区间的次数; fb为众数所在组的低一个分组区间的次数。 i为组距。 当fa=fb时,则M。=Lb+1/2·i,即次数最多那一分组区间的组中值。 金氏(W.I·King)插补法公式即适合次数分布比较偏斜的情况,也适用比较接近正态分布的情况。 上述两个公式所求得的众数略有出入。均为近似值。 3.众数的意义和应用 众数反映了一组数据中,哪种数据值最多。在某些情况下有一定意义。 众数可作集中趋势的快速估计值 数据同质性不好时,可求众数 数据中有极大或极小的情况 用平均数与众数之差估计次数分布的形态 4众数的不足之处 7 不稳定,受分组的影响 反应不够灵敏 数值不精确,不能作进一步的代数运算 总数乘以众数与数据总数不相等 四、平均数、中数、众数之间的关系和比较 1平均数、中数、众数之间的关系 在一个正态分布中,平均数、中数、众数三者相等,因此在数轴上三点重合,即M=Md=Mo。 在正偏态分布中:M>Md>Mo 在负偏态分布中: M<Md<Mo 在负偏态分布中: M<Md<Mo 一般偏态情况下,中数Md离平均数M较近、而距众数Mo较远。皮尔逊研究其经验关系得出以下结论:M与Md的距离占M与Mo距离的1/3,而Md与Mo占2/3,即 /=1/3。 因而推导出:Mo=3Md-2M 2平均数、中数、众数之间的比较 三种集中量数中,平均数是最常用的一种。它的意义最容易理解,也最为人们所熟悉。计算平均数时,每一个测量值都加入了计算,因此比求中数和众数时使用了更多的信息。它还有一些中数和众数不具有的特性。 第四章 离中趋势的度量 一、离散性质 对于数据的变异性,或离中趋势进行度量的一组统计量,就称作差异量数。这些差异量数包括:标准差或方差,全距,平均差,四分差及各种百分差等等。 二、离中趋势的度量 1全距 最简单的差异量数为全距。全距也称为两极差。它是数据分散趋势的最简单描述指标。可以用最大值减最小值:R=MAX-MIN。 如果由分组资料计算全距,应该用最高组的上限减最低组的下限。 2平均差 描述数据资料在平均数周围离散程度的指标平均差。平均差常用符号AD表示,它的数学公式如下: AD= S|xi-X| N 3方差和标准差 方差是一组数据的离差平方的平均数,又称变异数或均方差,一般用符号S2,或v表示。作为总体参数,常用符号s2表示。 方差和标准差的定义 方差的计算公式为: S2 = S2 = Sxi2 N N 8 方差的平方根称为标准差。一般用S,或SD表示。它的公式如下: S=å(Xi-X)N2由各小组的标准差求总标准差 方差具有可加性,在已知几个小组的方差或标准差的情况下,可以计算它们的总方差或总标准差。进行这种计算用下列公式计算: Sr2 = + N1+N2+N3+Nn 方差和标准差的性质 a每个观测值Xi加一个常数C后Yi,得出的标准差Sy等于原数据得出的标准差Sx: 若 Yi=Xi+C 则有 Sy=Sx b每个观测值Xi乘一个常数C后Yi,得出的标准差Sy等于原数据得出的标准差Sx乘以这个常数: 若 Yi=Xi·C 则有 Sy=C·Sx C每个观测值Xi乘一个常数c后,再加一个常数d,所得出的标准差Sy等于原数据得出的标准差Sx乘以这个常数c: 若 Yi=Xi·C+d, 则有 Sy=C·Sx 证明:根据标准差的性质1和性质2可证明性质3。 方差和标准差的意义 方差和标准差是表示一组数据离散程度的最好指标。其值越大,说明次数分布的离散程度越大;其值越小,说明次数分布的数据比较集中,离散程度越小。方差与标准差具有反应灵敏,计算严密,受抽样变动的影响较小等良好差异量数的条件。此外,方差具有可加性,它是对一组数据中造成各种变异的总和的测量。统计实践中常利用方差的可加性分解并确定属于不同来源的变异性,并进一步说明各种变异对总结果的影响。可以说方差是推论统计最常用的统计量数。 4标准差的相对差异系数(Coefficient of variation) 当遇到以下两种情况: 1.两个或两个以上样本所测的特质不同; 2.两个或两个以上样本所测的特质相同,但样本间的水平相差较大。 应使用相对差异量数,称作差异系数,或变异系数,用符号CV表示。计算公式如下: CV=S/M´100% 其中:S样本标准差 M样本平均数。 5.标准分数(Standard Score,or Z Score) 定义 标准分数又称Z分数,或基分数,是以标准差为单位表示一个分数在团体中所处的位置。它是将某个分数的离均差变为以标准差为单位的一种量数相对位置量数。公式为: Z=Xi-XS9 式中:X代表原始数据;X为一组数据的平均数;S为标准差。 Z分数的意义 Z分数的意义,是一个数与平均数之差除以标准差所得的商数,无实际单位。如果一个数小于平均数,其值为负数;如果一个数的值大于平均数,其值为正数;如果一个数的值等于平均数,其值为零。可见Z分数可以表明原数在该组数据分布中的位置。 Z分数的性质 性质1:在一组数据中所有由原分数转换得出的z分数之和为零,由此得出其z分数的平均数亦为零。根据求平均数及z分数的公式可推导出这个性质。 性质2:一组数据中若Z分数的方差为1,它的标准差也是1。 Z分数的应用 反映原分数在团体分布中的地位; 能使不同分布的各原始分数进行比较; 可以进行代数方法的处理。 A用于比较不同单位的变量 B利用Z分数求不同质的观测值的总和或平均值 C表示标准测验分数 转换公式为: 正态标准分数 Z=aZ+b Z分数也存在着缺点: 若一个数低于平均数,则出现负值; 得出的数据多为小数,很麻烦。一般为解决这个问题,常用X100,或X10的方法,舍去小数。 6四分差 四分差是描述数据离差程度的指标,常用字母Q表示。它的定义为: 在一组按大小顺序排列的数据中,位于中间50%的数据的全距之半。四分差等于Q3-Q1的一半。用公式表示为: 未分组数据求四分差公式: Q = Q3-Q1 2 在频数分布表的计算公式为: Q1 = Lb + N/4-Fb·i fQ1 Q3 = Lb + 3N/4-Fb·i fQ3 式中:Lb该四分点所在组的精确下限; Fb该四分点所在组以下的累加次数; fQ1和fQ3 该四分点所在组的次数; i组距; N数据个数。 7. 百分位差 定义:是将一组按大小顺序排列的数据分为100份。两个百分位数之间的距离,即为两个百分位数之差,用符号PD表示。常用的百分位差有两种:一种为P10与P90百分位差,中间包括80%的频数,另一种为P7与P93百分位差,中间包括86%的频数。 10 公式:求百分位差的公式如下: PD = PH- PL P86 = P93- P7,P80 = P90- P10 求百分位数的公式如下: P7 = Lb + 7N/100-cfb·i fP7 P93 = Lb + 93N/100-cfb·i fP93 式中:Lb 该百分位所在组的精确下限; cfb 该百分位所在组以下的累加次数; fP7和fP93 该百分位所在组的次数; i组距; N数据个数。 百分位差的值越大,表明数据分布的范围越大,离散程度也大。 第五章 相关分析 第一节 相关的基本概念 一、相关的定义 相关:两事物之间相互关联的程度。它反映了两种现象之间的共连关系。 二、相关的性质 直线相关是指两列变量中的一列变量在增加,而另一列变量随之而增加,或这一列变量在增加,而另下列变量却相应地减少。它们之间存在一种直线关系,或线性相关。直线相关可用直线拟合,散点成椭圆形分布。 2正相关,负相关和零相关 相关还有三种情况:正相关,负相关和零相关。 正相关 若一列变量由大而小、或由小而大变动时,另一列变量亦由大而小,或由小而大变动,即二列变量的变动方向相同,这种"同增同减"的关系,称为正相关。 负相关 若一列变量由大而小变动,另一列变量却反由小而大变动,即二列变量的变动方向相反,这种"此增彼减"的关系,称为负相关。 零相关 若一列变量由大而小变动;而另一列变量则或大或小变动,看不出一定趋势,即二列变量之间毫无关系,称为无相关或零相关。 3强相关、弱相关和完全相关 存在相关的两个变量,它们的变化关系除了方向性之外,还有密切程度问题。如果两个变量值的变化关系密切,(无论方向是正还是负)称为强(高)相关。变化的关系不密切,称为弱(低)相关。强相关围绕着直线,分布范围较小;最强的相关所有的点都落在直线上,称完全相关;弱相关围绕着直线分布范围较大。 四、相关的取值及意义 11 表示两列变量相关方向和程度的数量,称作相关系数,用符号r代表。 相关系数的取值总是在+1.00至-1.00之间。 r=±1.00,完全正相关; r=0,零相关; 0<|r|<1,相关系数的绝对值大小表示相关的程度,其取值不同,表示相关程度不同。 第二节 常用相关分析方法及其计算 一、积差相关系数 1积差相关系数的概念及计算条件 计算积差相关系数要求变量符合以下条件: 两列变量都是等距的或等比的测量数据; 两列变量所来自的总体必须是正态的,或近似正态的对称单峰分布;即正态双变量; 两列变量必须具备一一对应的关系,即为线性关系,但对样本的分布不做要求。 2积差相关计算公式 积差相关公式 r=å(Xi-X)(Yi-Y)=åxyNSxSyNSxSy其中:SX,SY分别为样本X和Y变量的标准差; N成对数据的数目。 变式 如果不知道标准差,可用标准差公式SX= Sx2/N推导出下列公式: r=åxyåxåy22如果直接用原始数据计算,则用下列公式: r=NåXY-åXåYNåX2-(åX)2NåY2-(åY)2还可转换成用Z分数求积差相关: r=NSxSyåxy=åZxZyN二、相关系数的合并 1合并方法 先将各分组的相关系数转换为Z,将Z转换成r后,求平均,然后再将Z平均值转换成总相关系数平均值。 计算公式 12 (n-3)ZiåZ=å(n-3)ii式中:Zi各样本ri查Z-r转换表得到; ni各样本的成对数目。 3相关系数合并的条件 合并的各样本应具有同质性; 应使用相同的测量工具; 各样本水平接近。 三、斯皮尔曼等级相关 1等级相关适用的数据资料 两个变量值以等级次序排列,或以等级次序表示; 两个变量的总体分布不一定是正态分布,或者根本不是正态分布; 成对样本的容量n小于30时, 2计算公式 等级相关公式 rR=1-6åD2N(N2-1)式中:D二变量对等级之差:D=X-Y; N等级对的数目。 直接用等级数计算 直接用等级数据计算,可使用下列公式: é4åRxRyù3rR=·ê-(N+1)úN-1êN(N+1)úëû式中:RX,RY 分别为二变量各等级数,相乘后再求和。 四、计算有相同等级的等级相关方法 1求校正数 随相同等级数目减少的数量规律可用下式表达, n(n2-1)C=12式中:C校正数; n相同等级的数目。 在一组数据中,有时会有多个相同等级数出现,则需将它们累加: n(n2-1)åC=å1213 2求有相同等级的等级相关计算公式 对有相同等级数目的变量使用斯皮尔曼等级相关公式应用下带校正的公式: rRCåx+åy-åD=2åxåy222222式中: N(N2-1)åx=12-åCxN(N2-1)-åCyåy=122n(n2-1)åC=å12式中:N对偶数据的个数; n相同等级的数目; D对偶等级差数。 六、质与量相关 质与量的相关是指一列变量为等比或等距的测量数据,另一列变量是按性质划分的类别,即为一个分类变量。欲求这样两列变量的直线相关,称之为质量相关,它包括:点二列相关,二列相关及多系列相关。 1点二列相关 适用资料 如果两列变量中有一列为等距或等比的测量数据,并且其总体分布为正态,另一列变量只是名义上的变量,而实际上是按事物的性质划分两类的变量。这类变量被称作“二分”名义变量。有时一个变量是双峰分布,也可划分为名义变量。 (2)公式及计算 计算点二列相关的公式是: St式中:Xp是与一个二分变量p对应的连续变量的平均数; Xq是与另一个二分变量q对应的连续变量的平均数; St是连续变量的标准差; p与q是二分变量各自所占的比率,p+q=1。 点二列相关系数的取值在-1.00至1.00之间。相关越高,绝对值越接近1.00。 2二列相关 (1)适用资料 二列相关适用的资料是两列均属于态分布。但其中一列变量为等距或等比的测量数据,另一列变量虽然也呈正态分布,但它被人为地划分为两类。 14 rpb=Xp-Xq·p·q(2)公式及计算 计算二列相关有两个公式: rb= Xp-XqSTXp-XTST·pqypyrB=·式中:Xp与二分变量中p变量对应的连续变量的平均数; Xq与二分变量中q变量对应的连续变量的平均数; St连续变量的标准差; p某一二分变量在所有二分变量中所占的比率; q另一二分变量在所有二分变量中所占的比率; y正态曲线中,p面积与q面积交界处y轴的高度。在求出p值后,可查正态分布表得到y值。 二列相关系数的取值范围在:-1.00 - +1.00之间。绝对值越接近1.00,其相关程度越高。 七、多系列相关(Multi-serial Correlation) (1)适用资料 多系列相关适用的资料为两列正态变量,其中一列为等距或等比的测量数据称为连续变量,另一列正态变量被人为地分成多种类别,称为名义变量。 (2)公式及计算 多系列相关系数的计算公式: (yl-yh)·Xiårs=(yl-yh)2STåpi式中:Pi每系列的次数比率; Yl每一名义变量下限的正态曲线高度,由Pi查正态表给出; Yh每一名义变量上限的正态曲线高度,由Pi查正态表给出; Xi与每一名义变量对偶的连续变量的平均数; ST连续变量的标准差。 多系列相关系数也介于-1.001.00之间,相关系数绝对值越接近1,表示其相关程度越高。 八、偏相关(Partial Correlation) 偏相关与简相关相比可能反映的是真正两变量之间的本质联系,故偏相关也称作纯相关。偏相关按因变量列数的多少而分级。在三列变量中,一列除外的偏相关系数称第一级偏相关系数;在四列变量中,二列除外的偏相关系数称第二级偏相关系数。余此类推。 1计算偏相关的基本公式 (1) 第一级偏相关的公式 15 r12.3=r12-r13r23221-r131-r23式中:r12第一,二个变量的简相关系数; r13第一,三个变量的简相关系数; r23第二,三个变量的简相关系数; (2) 第二级偏相关的公式 r12.34=r12.3-r14.3r24.3221-r14.31-r24.3式中:r12.3第一,二变量的简相关系数,排除第三个变量; r14.3第一,四变量的简相关系数,排除第三个变量; r24.3第二,四个变量的简相关系数,排除第三个变量; 小结:各相关分析的条件 一、常用相关分析统计方法 1皮尔逊积差相关 计算积差相关系数要求变量符合以下条件: 两列变量都是等距的或等比的测量数据; 两列变量所来自的总体必须是正态的,或近似正态的对称单峰分布; 两列变量为线性关系,对样本的分布不做要求。 两列变量样本数大于,或等于30。 2斯皮尔曼等级相关 等级相关适用的数据资料: 两个变量值以等级次序排列,或以等级次序表示; 两个变量的总体分布不要求一定是正态分布,或者根本不是正态分布; 成对样本的容量n可小于30; 有相同等级数据时,则需在等级相关公式中加修正系数。 3肯德尔W系数 肯德尔系数的适用数据资料: 适用于一般取自采用等级评定的方法得出的数据,对K个评价者的一致性进行统计分析。有相同等级数据时,则需在等级相关公式中加修正系数。 4肯德尔U系数 若采用对偶比较法获得数据,对K个评价者的一致性进行统计分析时,用肯德尔U系数。 二、质与量相关 1点二列相关 两列变量中有一列为等距或等比的测量数据,并且其总体分布为正态,另一列只是名义上的变量,而实际上是按事物的性质划分两类的变量。 2二列相关 两列变量均来自正态分布总体,但其中一列变量为等距或等比的测量数据,另一列16 变量虽然也呈正态分布,但被人为地划分为两类。 3多系列相关 两列来自正态总体的变量,其中一列为等距或等比的测量数据,为连续变量,另一列被人为地分成多种类别为名义变量。 三、偏相关 排除其他因素的影响,求两列变量之间纯粹的相关关系时,采用偏相关分析。 四、相关的合并 由同质的分组相关求总相关时,通过r-Z, Z-r转换求其相关平均值。 第六章 概率与概率分布 第一节 随机事件和随机变量 一、随机事件的定义 第一节 随机事件和随机变量 一、随机事件的定义 随机事件:在给定的条件下,一个事件可能发生,也可能不发生,这样的事件称作随机事件。随机事件具有或然性。 2个特例:绝对不可能发生的事件称为“不可能事件,用大写V表示;必定要发生的事件称为必然事件,用大写U表示。 二、随机变量的定义 随机变量:在一定范围内,任意取多个值,取每个值的可能性用概率表达,这样的取值称作随机变量。随机变量有两种: 1.离散型随机变量,取值是间断的; 2.连续变量,取值是无限的。 第二节 概率 一、概率的定义 概率也称作机率,或然率及可能率。概率公式: P(A)=m/n 二、概率的类型 概率分为两种: 1先验概率或古典概率 定义: I每次试验中,可能出现的基本事件的个数是有限的。 II每次试验中,每个基本事件出现的可能性是相等的,即每个基本事件发生的概率相等。 古典概率的特点: 事先就已知某个事件出现的事实,在实验或研究之前就可算出该事件发生的概率,故又称作先验概率。 2后验概率 17 在进行多次观测时,按观测结果计算的概率称作后验概率。 观测的次数越多,越接近先验概率。 三、概率的基本性质 1必然事件发生的概率为1,P=1 2不可能事件的概率为0,P=0 3事件A发生的概率: 满足:0£P(A)£1 即概率的数值在:01之间。 4逆事件的概率: P(A)+P(A)=1P(A)=1-P(A)四、概率的基本定理 1概率的加法定理 若A,B是2个相互独立的事件,则A和B至少有一个发生的概率为: P=P+P 推广到有限多个相互独立事件,则A1,A2,An至少有一个发生的概率为: P=P+P+P 2概率的乘法定理 若A,B是两个相互独立的事件,则A和B同时发生的概率为: P=P·P 若推广到有限