问卷编制与分析.ppt
问卷编制与分析,主要内容,量化研究与统计分析量化研究的基本概念量的研究与质的研究的区别量的研究设计方法量的研究步骤量表分析步骤量表的编码项目分析因素分析信度分析复选题及其他方式的数据文件建立,1、量化研究的基本概念,研究的两种取向(两个范畴)量化研究(定量研究)质性研究(定性研究)量化研究的基本概念研究的目的:描述、解释、预测研究的特性:客观性、系统性、实证,2、量的研究与质的研究的区别,对问题看法逻辑实证主义:单一的客观实在自然现象主义:多元实在研究目的变量间的必然性的因果关系或相关关系对情境关系的诠释与分析研究取向假设演绎假设(特殊条件下的)验证归纳法经验归纳研究者角色客观中立价值参与研究结果推论由样本推论到样本的总体,强调情境的重要性情境限制推论,3、量的研究设计方法,调查法访问调查法问卷调查法相关研究法实验法真实验设计准实验设计量化研究的主要特征是经过观察、测验、量表、问卷以取得研究实施的数据资料,作为假设检验的基础。因此,搜集、整理、统计分析是其基础。,4、量的研究步骤,选择与定义问题执行研究的程序数据分析结果分析与结论,1)、选择与定义问题,研究问题必须是可以检验的假设,是领域的感兴趣、有价值或重要性的问题,问题可以经过资料搜集、分析来加以检验或回答。研究问题确定后,要给予完整的操作性的定义。,2)、执行研究的程序,实施的程序包括:样本或被试的选择抽样方式对象的要求、代表性样本量测量工具的改进编制、修订、完善数据的搜集数据的类型、统计方法的选择,3)、数据分析,根据数据的性质和特点,选择合适的统计分析方法进行客观的解释及推论。,4)、结果分析与结论,检验假设是否能被支持。推论到特定情境得出一般结论。,研究者如采实验研究时,应当把握下列四大原则(Kirk,1995):,1)要有适切的统计检验力,使和o间差异,有实质意义存在。2)使用最小资源、人数。3)提供适当的保护,以防止第一类型的错误。4)无关干扰变量的影响要最小。,在实验设计的选择上面,除把握以上四个原则外,也要考虑到下面五个方面:,1)这个设计能够有效计算出实验效果与误差效果值?团为由这两个效果值才能得知实验处理是否有效。2)所搜集的数据足以产生可靠的结果?如果所搜集的数据有偏误,统计结果自然不正确。3)设计是否可运用适当的统计方法加以检验,而检验结果是否具有足够的统计检验力?量化的数据如果不能以统计方法检验,则无法验证:此外,统计检验力人低,也代表正确裁决率不高。4)在实验情境限制下,此设计是否是最有效率,也最经济化的设计5)实验程序是否具体可行?在研究领域中所学的方法是否可以使用?在研究情境类似下,研究者之研究结果应能与其它研究者的发现作一比较。,样本的代表性,赋予概念的操作型定义,才能具体表达概念所代表的意义,也才能由外在的观察与测量而得知概念的层次。在样本的选择上,最重要的是样本要有高的代表性,愈有代表性的样本,类推样本母群的性质就愈正确。对母群体而言,选取的样本是否具有代表性,根据下列三项因素而定:一是选取的样本大小是否足够二是样本选取时抽样的方法是否恰当三是从样本处所获得的数据是否精确,代表性是取样的基本准则,也是判定受试者适当与否的主要依据,常用的取样方法有三种(Gay,1992):,1)随机抽样:依据概率理论,以随机原则方式从母群体中抽取定比例的受试者(取样对象为观察值个体),使用方法如抽签法、随机乱数表抽样等。,2)分层随机抽样,研究设计中,如果受试各母群间的差异很大(异质性很高),或某些样本点很少,为顾及小群体的样本点也能被抽取,应采用分层随机取样较为适宜。在实施上,研究者根据研究关注的准则,先将母群体分成几个互斥的若干层(不同的小群体),各层间尽可能异质、而各层内尽可能同质,然后从每层中利用随机取样方式,依一定比例各抽取若干样本数。分层随机抽样的步骤如下(Gay,1992):确认与界定研究的母群体。决定所需样本的大小。确认变量与各子群(层次),以确保取样的代表性。依实际研究情形,把母群体的所有成员划分成数个层次。使用随机方式从每个子群中,选取适当的个体;适当的个体意指按照一定的比例人数或相等人数。,分层随机抽样的图标如下:,3)整群抽样法:,如果样本所属母群体的很大或涵括的地理位置很广,则采用整群抽样法较为简宜。整群抽样法是以一个群组或一个团体为抽取单位,而不以个人为取样单位,因而整群抽样法抽取的样本点是一个群组、一个群组,群组与群组间的特征非常接近,同构型很高;而群组内彼此成员的差异较大,异质性高。在社会科学领域中,整群抽样的群组如班级、学校、组别、部门、学区等。整群抽样的步骤如下:确认与界定母群体。决定研究所需的样本大小。确认与定义合理的组群。列出母群体所包括的所有组群。估计“每个组群中平均母群成员的个体数。以抽取的样本总数除以组群平均个体数,以决定要选取的组群数目。随机取样方式,选取所需的组群数。每个被选取之组群中的所有成员即成为研究样本,整群抽样的图标如下:,两大随机原则:,样本选取时,最重要的是样本要有代表性,才能从受试样本群体推论到其母群体的性质,受试样本要有代表性,了重要的方法就是要把握“随机取样”与“随机分配”两个原则。,取样的样本要多少才算“够大”?,在研究设计中,受试者的数目要多大才算具有代表性,多少位样本才算“够大”,这个议题,社会科学研究领域中,似乎无一致的结论。其中,学者Sudman(1976)提出的看法,可供参考:初学者进行与前人相类似的研究时,可参考别人的样本数,作为自己取样的参考。如果是地区性研究,平均样本人数在500至1000人之间较为适合;而如果是全国性研究,平均样本人数约在1500人至2500人之间较为适宜。学者Gay(1992)对于样本数多少,则提出以下看法:描述研究时,样本数最少占母群体的10,如果母群体较小则最小的样本数最好为母群体的20相关研究的目的在于探究变量间的有无关系存在,受试者至少须在30人以上。因果比较研究与许多实验研究,各组的人数至少要有30位如果实验研究设计得宜,有严密的实验控制,每组受试考至少在15人以上,但权威学者还是认为每组受试者最少应有30人,最为适宜。,注意:,考虑研究实际情境与研究间差异,抽取样本时如局限于“绝对数量”多少,较为不宜。因为各母群体性质不同,异质性很高,包含个体数差异也很大。所以可接受之受试样本数准则只是一种参考指针,因为“如果取样方式不当,虽然选了很大的样本,代表性很低,还不如以适当抽样的方法,选取有代表性的小样本”学者Borg与Gall(1983)二者即认为,样本数多少受到多种变量的影响,在下列几种条件或情境中,要采较大的样本数:编制之测量工具的“信度”(可靠性)较低时。研究进行中有较多变量无法控制时。母群体的同构型很低时。统计分析时,受试者须再细分为较小的各群组来分析比较时实验设计时,预期会有较多受试者中途退出时。,变量的分类,数据分析之变量属性的分类中,多采纳学者Stevens(1946、1951)的观点,Stevens的看法中,乃根据测量量表或测量水准的基准,将变量属性类别划分成以下几种:1名义变量或称类别变量主要在于分类对象,把对象转变为间断类别,变量主要属性只是用来辨识事物或表示事物的类别而己,如性别、种族等。2次序变量变量除只有分类特性外,又具有等级排序关系:变量间根据菜个准则,可将对象由最高至最低作有规则的排序,变量主要属性在于可用数值表示对象间之优劣、多少、高低、次序等。3等距比率变量等距变量除可表示对象类别及比较大小次序外,对象类别间距离是相等的,出而变量间有“可加性”。如果对象类别间存有绝对的零点,则称为比率变量,比率变量间问有“可乘性”,二者均属连续变量。,在社会科学领域中,学者不会特别在意等距变量与比率变量间划分,因为社会科学中,真正的等距变量往往也是比率变量,如收入、午龄等;加上等距变量与比率变量所适用的统计方法并无不同,二者均含合算术计算特性,因而两个变量常被合而为,数据分析中,似乎个必严格区分变量是属等距变量或比率变量。在社会科学中,常用的李克特式之多选项量表,严格说起来,量友之变量性质足一种次序变量,但次序变量与名义变量均属“间断变量”,间断变量无法求其平均数、或进行相关、回归等统计分祈,因而无法验证相关的研究假设,所以多数研究者在编制多选项量表时,皆把量表视为等距变量来设计,此类等距变量也可转化为不同类别,它虽然不是“真正”等距变量,但多假定具有真正等距变量的性质,如此,才能进行有意义的数据统计分析与归纳出合理的结论。,此外,在社会科学领域中,灼一个常见的变量为“一分变量”,此变量被视入名义变量或次序变量,均届于间断交量,对象届性只分为二大类别,如“男”、“女”;“及格”、“不及格”等。如果间断变量有三大类或三个水准时,则称为“三分变量”,如包含三个类别以上或三个水准以上的间断变量,又称为“多分变量”。在变量属性的转换上,等距比率变量可转化为次序变量或名义变量,如依某一分量表之得分高低,将样本分成“高分组”、“中分组”、“低分组”,但次序变量或名义变量不能转换为等距变量比率变量,如要转换,常用者为以虚拟变量方式出现(有关虚拟变量的转换与应用,请参考多元回归分析一章)。,二、量表分析步骤,在问卷调查法或实验研究法中,研究或调查工具编制甚为重要,问卷如果编制或选用得宜,则研究才更具可靠性与价值性。我们首先说明问卷信效度分析的简要步骤。各步骤的操作方法则分别在以后详细说明。问卷信效度分析的步骤,简要分述如下:编拟预试问卷预试整理问卷与编号项目分析因素分析信度分析再测信度,1、编拟预试问卷,在预试问卷的编制或修订上,应根据研究目的、相关文献数据与研究结构等方面加以考虑,如果有类似的研究工具,可根据研究当时的实际情形,加以修订、增删;如果是自己重新编制问卷,问卷内容应依据研究结构的层面,加以编制,在编制问卷时应注意:1如果问卷的题项内容过于敏感,应在间卷中穿插数题“测谎题”,以探知填答者是否据实填答。2态度量表通常采用的是李克持式量表法,量表填答方式以4点量表 法全6点量表法,最为多人或研究者所采用。,对于应采用几点量表法,学者Berdie(1994)根据研究经验,综合提出以下看法,可供研究者参考:,在大多数的情况下,5点量表是最可靠的,选项超过5点,一般人难有足够的辨别力。3点量表限制了温和意见与强烈意见的表达,五点量表则正好可以表示温和意见与强烈意见之间的区别。由于人口变量的异质性关系,对于没有足够辨别力的人而吉,使用7点量表法,会导致信度的丧失;对于具有足够辨别力的人而言,使用5点量表,又令人有受限的不适感。以上问题至目前还没有一个很好解释理由,然而透过预试,可以发现这些问题的存在。量表的点数愈多,选答分布的情形就愈广,变异数也会变得更大,有些人认为这种情形在统计检验上会只有很好的区别力,然而,(1)这种选答很广的分布缺乏可信度,故完全没有意义;(2)较大的选答变异数,表示也会有较大的抽样误差,就统计数据分析的意义而言,是不该有太大的变异数的。,题项数的多少为好?,李克特式量表法,重视其“内在一致性程度”,这是量表题项两两之间关系强度的函数,也是题项与潜在变量间的关系指针,函数值大小与题项数多寡有密切关系,题项数愈多,愈有可能涵括所要测量的潜在变量;不过,题顶数过多,在实际研究情境中多数会有实际的困难,如受试者时间不允许或造成填答者不用心作答等。学者Devellis(1991)对于预试问卷题项数提出以下两点看法,可作为研究者参考:1如果研究者是编制或发展一个正式的测验或量表,作为其它心理测量之用,则预试题项数最好是将来所需正式题项总数的3、4倍。2、在某些特定内容范围中,有些量表题项的发展不容易;或先前相关的研究显示,这些 设想不需要过多的题项即可获得良好的内在一致性,预试量表的题项数约为正式量表 题项数的1.5 倍即可,如正式量表题项数预计在20题附近,则预试问卷时,其预试 题项数大约为30题。,2、预试,预试问卷编拟完后,应实施预试,预试对象的性质应与将来正式问卷要抽取的对象性质相同,如研究对象为中学生,则预试之受试者也应为中学生,预试对象人数以问卷中包括最多题项之“分量表”的35倍人数为原则,如调查预试问卷中,包括三种分量表,每各分量表包含的题项分别为40题、35题、25题,则预试对象,最好在120位至200位中间,如果样本较为特殊,在预试人数的选取上可考虑再酌减一些。预试时选取样本数应该多大最为适宜?应考虑问卷量表是否进行因素分析。因为因素分析时,以较大样本分析所呈现的因素组型,比一个只用较小样本所出现的因素组型,要来得稳定。进行因素分析时,量表的题项数愈多及预期要有较多的因素层面的话,进行因素分析时,应包括愈多的受试者(DeVellks,1991)。学名Tinsley和Tinsley(1987)建议,进行因素分析时,每个题项数与预试样本数的比例大约为1:1至1:10之间,如果受试者总数在300人以上时,这个比例便不是那么重要。最近,另一学者Comrey(1988)也提出另一观点,如果量表的题项数少于40题,中等样本数约是150位,较佳的样本数是200位。其观点与Tinsley二者接近,亦即量表题项数与预试人数比例约为1:1最为适合。,3、整理问卷与编号,问卷回收后,应一份一份检查筛选,对于数据不全或不诚实填答之间卷,应考虑将之删除;对于填答时皆填同性答案者是否删除,研究者应考虑问卷题项本身的内容与描述,自行审慎判断。筛选完后的问卷应加以编号,以便将来核对数据之用;之后再给予各变量、各题项个不同代码,并依问卷内容,有顺序的键入计算机。SPSS可以读取文本文件、excel等文件,可以选择自己得手的程序输入。,量表的编码,变量名对于题项较多的量表一般以题项作为变量名变量名是唯一的,不能重复,不能用数字,不能有空格对于量表所涉及的基本信息部分一般以中英文来标识变量,为便于输入,减少输入法的转换及全角半角的影响,建议使用英文或汉语拼音。如果使用计算机比较熟练,用汉字也有其优点如性别、年龄、职业等用SEX、AGE、JOB或XINGBIE、NIANLING、ZHIYIE等对于12.0以前的版本,变量名仅限8个字符。,量表的编码,变量名对于各分量表要使用相同的识别码使用题目序号标识不同的题项如A1、A2表示量表A的各题项,B1B2表示量表B的各题项各反向计分题在变量名中进行标识,以方便后续运算,量表的编码,变量名标签对于量表所涉及的基本信息部分为便于显示和以后的报告撰写,建议使用中文标签SPSS12.0以前的版本,变量名仅限8个字符,不能清楚表示时,可以使用变量名标签。对于各分量表生成的新变量名,如量表总分,子量表均分可用变量名标签,量表的编码,变量值标签对于量表所涉及的基本信息部分一般用变量值标签来加快输入的速度减少以后分析操作过程的诸多不便变量值标签可以使用中英文,如果英文不特别好,建议使用中文。如性别:男女用1、2或0、1标识职业:工人、农民等用1、2等表示对于变量的类型,除非必须(如姓名、学号等)用字符串外,我们都选择用数值型变量。,量表的编码,变量值标签对于各分量表原题项一般不用变量值标签对于新生成的称名变量、顺序变量最好使用变量值标签如:总分分组中的高、中、低三组按量表标准计算出的心理问题的检出率,如重度焦虑、中度焦虑、轻度焦虑、无焦虑等,量表的编码,变量的类型除非必须(如姓名、学号等)用字符串外,建议全部选用数值型变量。对于称名变量和顺序变量则用变量值标签来标识其涵义变量的测度水平对于量表基本部分的称名变量和顺序变量分别标识其测度水平对于分量表计算而生成的称名变量和顺序变量最好也标识其测度水平各题项及新生成的多数变量则用连续变量标识其水平,4、项目分析,作用:项目分析主要目的在求出问卷个别题项的临界比率值CR值将未达到显著水平的题项删除,减少题量。主要方法独立样本T检验相关法数据:Cha-2.sav,项目分析即在求出每一个题项的“临界比率”(简称CR值),其求法是将所有受试者在预试量表的得分总和依高低排列,得分前25至33者为高分组,得分后25至33者为低分组,求出高低二组受试者在每题得分平均数差异的显著性检验(多数数据分析时,均以测验总分最高的27及最低的27,作为高低分组界限),如果题项的CR值达显者水准(0.05或0.01),即表示这个题项能鉴别不同 受试者的反应程度,此为题项是否删除首应考虑的。,主要方法,独立样本T检验:量表题项的反向计分题的处理(916,若无则可省略)利用Record into Same命令将反向题导入右侧框中定义转换的数值关系注意:先保存原始数据文件。求出量表总分利用Compute命令输入新变量名即总分建立数学关系式,即连加量表总分高低排序利用Sort Case命令将总分加入右侧框中选择排序方法找出高低分组上下27处的分数,按临界分数将总分分成高低二组利用Record into Different命令先定义变量:总分组组将临界值以下的定义为1组(43,低分组)将临界值以上的定义为2组(56,高分组)以独立样本T检验检查二组在每个题项的差异利用Independent-samples T Test 命令将所组题项导入右上侧框中选择总分组变量作为自变量并定义其值1、2将T检验的结果未达到显著性的题项删除根据方差齐性检验结果选择t检验的值及显著性确定需要删除的题项(本例全部显著),查看结果,主要方法,相关法:量表题项的反向计分题的处理(若无则可省略)求出量表总分计算各题项与总分的相关利用Bivariate命令为便于观察,先选择总分进入右侧再选择所有题项依原来顺序进入右侧选择积差相关法根据各题项与总分相关系数的显著性及相关系数的大小决定取舍题目的标准。,5、因素分析结构效度,项目分析完后,为检验量表的结构有效度,应进行因素分析。所谓结构效度系指态度量表能测量理论的概念或特质之程度。因素分析目在于检验量表的“建构效度”即找出量表潜在的结构,减少题项的数日,使之变为一组较少而彼此相关较大的变量,此种因素分析方法,是一种“探索性的因素分析”,5、因素分析结构效度,研究的效度包括内在效度与外在效度两种内在效度指研究叙述的正确性与真实性;外在效度则指研究推论的正确性。在因素分析时,一项重要工作是要保留多少个共同因素,在探索性因素分析中,常用的原则:1、根据Kaiser(1960)的观点,保留特征值大于1的因素,但此方法,题项如果太多,可能会抽出较多的共同因素。避免抽取过多的共同因素,研究者也可限定因素抽取的数目,但此方面通过多用于“验证性因素分析”上面。2、根据陡坡图,因素变异量递减情形来决定。在陡坡图中,如果因素变异量图形呈现由斜坡转为平坦,平坦状态以后的共同因素可以去掉。,5、因素分析结构效度,在统计分析中,因素层面是否加以限制,或由电脑自己抽取,研究者均要自行考虑,如果早先在题项编制时,研究者己确定量表的层面数,在统计分析时可限定因素抽取的数目。在实际教育研究中,星表有效性建构有时需要进行23次因素分析,因为部份量表在第一次因素分析时,因素层面所涵括的题项内容差异太大,纳入同一层面,解释较不合理,因而可能需要删除部份题项,由于删除了题项,量表的效度要再重新建构。如果量表不采用结构效度检验方法,研究者亦可考虑采用其它效度分析法,如“内容效率”、“专家效度”、“效标关联效度”等。,效度的基本概念,在研究过程中,实验研究中想提高研究的内在效度,在研究设计时可把握:理论正确、解释清楚:概念要具有明确性,解释要信而可证。操作规范以减少误差:概念及变量能够依其理论建构或特定内容而给予操作性的定义,进而设计有效度的测量工具或测验。样本适宜且预防流失:样本取样要注意不同组别人数的相等性,重视研究情境的适应性与问卷调查的回收率。正本清源,排除无关变因:认清并排除足以混淆或威胁绪论的无关干扰变量。,效度的基本概念,要提高研究的外在效度,研究设计时可把握:解释分析应具普遍性、客观性、中立性、合理性与真实性以操作性定义代表概念性意义,取样应有足够的代表性,研究的情境要适切,最好能与未来实际要应用或推论的情境类似。观察具有普遍性,资料搜集来源要多元性并且要客观尽可能排除无关的干扰变量,并慎防实验者效应发生,效度的基本概念,效度具有以下性质:效度是指“测验结果”的正确性或可靠性,而不是指测验工具本身。效度并非全有或全无,只是程度上有高低不同的差别效度有其目标功能性,是针对某一特殊功能或某种特殊用途而言,不具有普遍性,一份具有高效度的测验工具施测于不同的受试者,可能会导致测验结果的不正确。效度并无法实际测量,只能从现有信息作逻辑推断或从实证资料作统计检验分析。,效度的基本概念,测验或量表所能正确测量的特质程度,一般就是效度。效度具有目标导向,每种测验或量表均有其特殊目的与功能,因而我们说一份测验或量表的效度高,指的是其特殊的用途,而非一般的推论,因而我们说这份测验或量表不能适用于所有不同的群体或所有的社会科学领域。一份高效度的量表,有其适用的特定群体及特殊的目的存在。在测验评价中效度是最重要的考查因素,效度概念指的是特定测验结果的推论的适当的、有意义的及有用的情况,检验是否有效的历程,在于累积证据以支持上述推论的过程(教育与心理测验的标准1985,P9)。,效度的基本概念,对效度的分类包括以下几种:内容效度效标关联效度建构效度专家效度,内容效度,是指测验或量表内容或题项的适当性与代表性,即测验内容能反应所要测量的心理特质,能否达到测量到所要测验的目的或行为构想。内容效度的检验通常会透过双向细目表内容效度常以题目分布的合理性来判断,属于一种命题的逻辑分析,因而内容效度也称为“逻辑效度”。,效标关联效度,是指测验与外在效标间关联的程度。如果测验与外在效标间的相关愈高,表示此测验的效标关联效度愈高。作为外在效标的工具,本身必须具备良好的信度与效度,如标准化的学业成绩、智力测验、常模建立的人格量表、态度量表、实际的工作表现等。效标关联效度依其使用时间间隔的长短又分为“预测效度”与“同时效度”,前者指测验分数与的效标之间关联的程度;后者指测验分数与目前效标资料之间的关联程度。效标关联效度通常求实际测验分数与效标间的关系,属于实证统计分析,因而效标关联效度又称为“实证性效度”。,建构效度,指测验能够测量出理论的特质或概念的程度,即实际的测验分数能解释某一心理特质有多少。建构是用来解释个体行为的假设性的理论上的结构心理特质,因而建构效度就是“测验能够测量到理论上的建构心理特质的程度。”如我们根据理论的假设结构,编制一份量表或测验,经实际测试结果,受试者所得的实际分数,经统计检验结果能有效解释受试者的心理特质,则此测验或量表具有良好的建构效度。建构效度由于有理论的逻辑分析为基础,同时又根据实际所得的资料来检验理论的正确性,因此是一种相当严谨的效度检验方法。,建构效度,建构效度检验步骤通常包括:根据文献探讨、前人研究结果、实际经验等建立假设性理论建构根据建构的假设性理论编制适当的测验工具选取适当的受试者进行施测以统计检验的实证方法支考查此份测验工具是否能有效解释所欲建构的心理特质。统计学上,检验建构效度的最常用方法即是因素分析,研究者如果以因素分析去检验测验工具的效度,并有效地抽取共同因素,此共同因素与理论结构的心理特质很接近,则可说此测验工具或量表具有“建构效度”。因而研究者常会描述“将项目分析之后的题项作因素分析,来求得量表的建构效度。,专家效度,在研究者根据理论假设编制测验或量表后,如果无法编制双向细目表进行内容效度检验,可以将编制好的量表请相关的学者专家加以审查。学者专家包括有实际工作经验者、有此相关研究经验者、有学术背景的学者等学者专家会根据原构想表对题项逐一审查,看题项内容是否能真正测出构想表的心理特质或包括的内涵,看词句是否恰当并提供修正意见。研究者再根据专家学者的意见,统计分析适合的题项与不适合的题项,并修正若干不恰当的词句,然后再编制成预试问卷,以考查测验或量表的信度,经此一步骤,则量表可增殖“专家效度”一项。,因素分析的基本原理,因素分析是多变量方法的应用之一,在社会科学研究领域中,应用最广的是把数个很难解释,而彼此有关的变量,转化成少数有概念化意义,而彼此独立性大的因素。因素分析时,如以主成分分析法抽取因素,则又称为“主成分因素分析”事实上,主成分因素分析也是因素分析中最常用使用的方法。因素分析是一种潜在的结构分析法,其模式理论中,假定每个指针(外在变量或称题项、观察值、问卷问题)均由两个部分构成:一为“共同因素”;一为“惟一因素”。共同因素的数目会比指针数(原始变量数)还少,而每个指针或原始变量皆有一个惟一因素,亦即一份量表共有N个题项数,则也会有N个惟一因素。,因素分析的基本原理,惟一因素有两个假定:所有的惟一因素间彼此没有相关所有的惟一因素与所有的共同因素间也没有相关至于所有共同因素间彼此的关系,可能有相关或可能皆没有相关。在斜交转轴状态下,所有的共同因素间彼此有相关在直交转轴情况下,所有的共同因素间彼此没有相关因素分析的最常用模式如下:Zj=aj1F1+aj2F2+aj3F3+ajmFm+Uj其中:Zj为第j个变量的标准化分数Fi为共同因素m为所有变量共同因素的数目Uj为变量Zj的惟一因素aj1为因素负荷量,因素分析的基本原理,所谓的因素负荷量为因素结构中原始变量与因素分析时抽取出共同因素的相关。在因素分析中有两个重要的指标:共同性:特征值,因素分析的基本原理,共同性:是某个变量在所有共同因素上的负荷量的平方和。即横向求和是该变量可以被共同因素解释的变异的百分比是该变量与共同因素间多元相关的平方从共同性的大小可以判断这个原始变量与共同因素间的关系程度惟一因素的大小就是1共同性所有共同性的相加等于1,因素分析的基本原理,特征值是所有变量在某一共同因素的因素负荷量的平方和,即纵向求和在因素分析中,特征值最大的共同因素被先抽取,其次介次大者,最后抽取的共同因素的特征值最小。在主成分分析中,特征值的总和刚好等于变量的总数每个共同因素的特征值除以总题数,为此项共同因素可以解释的变异量因素分析的目的,在于因素结构的简单化,希望以最少的共同因素,能对总变异作最大的解释,因而抽取的因素愈少愈好,但抽取因素的累积解释的变异量愈大愈好。,因素分析通常应用在三个层面,显示变量间因素分析的组型考查变量间的群组,每个群组的包括的变量彼此间相关很高,同构性较大减少大量变量数目,使之成为一组包括变量较少的统计自变量(称为因素),每个因素与原始变量间有某种线性关系存在。因素分析具有简化数据变量的功能,以较少的层面来代表原来的数据结构它根据变量间彼此的相关,找出变量间潜在的结构关系,变量间简单的结构关系称为“成分”或“因素”。,因素分析步骤,筛选观测变量计算变量间相关矩阵或协方差矩阵样本数据适当性考察确定因子数参数估计因子旋转因子得分决定因素与命名注意上述步骤并非一次顺序地执行即达到目的,而是要经过多次反复才能选择一个较好的模型。,筛选观测变量,筛选观测变量是一个复杂的问题,它涉及到理论构想,开放式问卷项目的归纳整理以及经典测量理论中的项目分析。我们这里就因素分析的思想提出一些建议,在进行分析时最好不选以下观测变量:1、标准差低,标准的确定是比较主观的2、重测信度低(建议0.2);3、最大载荷值lij小(建议0.4);4、共同度hi2小(建议0.16);5、最大载荷值lij与共同度hi2之比小(建议0.5);6、最大两个载荷值lij与共同度hi2之比小(建议0.25);7、取样适当性系数(MSA)过小;8、多极变量,即一个变量在几个因子上的载荷都较大。,计算变量间相关矩阵或协方差矩阵,如果一个变量与其它变量间相关很低,在下一个分析步骤中可以考虑剔除此变量,但实际排除与否,还要考量到变量的“共同性”与“因素负荷量”。如以原始数据作为因素分析的数据,电脑会自动先转化为相关矩阵的方式,进行因素分析。,样本数据适当性考察,样本相关矩阵:如果变量之间相关程度普遍较低则不大可能找到便于解释的公因子,可以查看相关矩阵中是否有一部分较高的相关系数,不过这里没有一个合适与不合适的标准。Bartlett球度检验:用于检验Ho:“原始数据的变量间相关矩阵是一个单位矩阵”,Ho被拒绝说明各个变量间存在相关,若P值没达到显著,则数据不宜进行因子分析。偏相关系数:如果变量共享公因子,当其它变量的线性效应被去掉时,变量偶对间的偏相关系数应当小。当满足因子分析假定时,偏相关系数是特殊因子(误差)之间的相关系数的估计,应当接近于零。偏相关系数的负数叫做反像相关(anti-image),在一个好的因子模型中反像相关阵里除了对角线上的系数较大外,远离对角线的元素应该比较小。,样本数据适当性考察,题项间是否适合进行因素分析,可用取样适应性数值KMO来判断一般要求在0.6(勉强)以上。0.9(极适合)、0.8(适合)、0.7(尚可)、0.5(不适合)、0.5以下(非常不适合)因素分析的变量必须都是等距或比率变量,即都要是连续变量才可,在进行因素分析前,可观察变量间的相关矩阵,因素分析时变量间需具有一定程度的相关,一群相关太高或太低的变量,都会造成执行因素分析的困难,太低的相关很难抽取稳定的共同因素,不适于进行因素分析;然而题项间相关太高,便会发生共线性问题,其判别效度有待检验,所获得的因素价值不高。这些都可以通过KMO及球形检验来检验。,确定公因子数,Kaiser准则:选取特征值大于1的因素(要求题项数最好不要超过30题;题项平均共同性最好在0.7以上;如果受试样本大于250,则平均共同性应在0.6以上Cattell所倡导的陡坡检验,碎石图(Scree Plot),也称陡阶检验,它显示的是每个因子的,大子的陡急坡度与其余因子的缓慢坡度之间明显的折点可用确定因子数。m85%,现在多数因子分析中只有40%60%);在极大似然估计法中,使拟合度显著性水平不再减小;理论构想及公因子的可解释性都可以作为确定因子数的参考,参数估计的方法,估计因素负荷量的方法,有:主成分分析法主轴法一般最小二乘法未加权最小二乘法极大似然法Alpha因素抽取法映象因素抽取法等最常使用的是主成分分析法与主轴法,参数估计的方法,主成份分析法(Principal Component):主成分分析法是以线性组合式将所有变量加以合并,计算所有变量共同解释的变异量,该线性组合称为主成分。第一次线性组合所解释的变异量最大,分离此变量所剩余的变异量,经第二个线性组合后,可以分离出第二个主成分,依次类推.第一主分量占样本方差的最大量,第二分量占方差次大量,且 与第一主分量无关,其后的分量逐渐解释样本总方差中的较小部分,并且所有分量彼此不相关。主成份法对总体的分布没着什么假定,因此适用范围广,也便于确定因子数。,参数估计的方法,极大似然法(Maximum likelihood):它上在假定观测变量、误差以及公共因子服从多维正态分布的情况进行计算的,如果样本来自多元正态总体,估计的相关矩阵与产生的观测相关矩阵很相似。值得我们注意的是极大似然法和主成份分析法所得的结果一般是不会完全一致的。主轴法是分析变量间的共同变异量而存在全体变异量,其计算方式是将相关矩阵中的对角线,由原来的1.00改用共同性来取代,其目的在于抽出一系列互相独立的因素,第一个因素解释最大的原始变量间共同变异量;第二个因素解释剩余共同变异量的最大变异。,因子旋转,在因素抽取上,通常最初因素抽取后,对因素无法作有效的解释。因素分析的目的不仅是求出主因子,更主要的是要知道每个因子的意义。在因子提取阶段获得的矩阵表明了因子和单个变量之间的关系,但是根据这个因子矩阵通常难于确定有意义的因子,因为这个矩阵反映出大多数因子与许多变量相关。因子旋转的目的是在于改变题项在各因素的负荷量的大小,使得因素负荷量易于解释,获得结构简单的因子载荷矩阵。转轴时根据题项与因素结构关系的密切程度,调整各因素负荷量的大小。,因子旋转,转轴以后,使得变量在每个因素的负荷量不是变大就是变得更小,改变转轴前每个因素的负荷量大小均差不多。即每个因子仅在某些变量上有大的载荷,而在其它因子上的载荷接近零,每个变量仅在某个因子上有较大载荷,而在其它因子上载荷接近于零。转轴后,大部分的题项在每个共同因素中有一个差异较大的因素负荷量。转轴后,每个共同因素的特征值会改变,与转轴前不一样,但每个变量的共同性不会改变。,因子旋转,常用的转轴方法有:最大变异法、四次最大值法、相等最大值法、直接斜交转轴法和Promax转轴法等。分为正交旋转与斜交旋转两类。其中前三者为直交转轴法。在直交转轴法中,最常用的正交旋转是方差极大(Varimax)方法;正交旋转适用于公因子相互独立的情况,因素之间没有相关。如果客观情况是公因子彼此相关,就应考虑用斜交旋转。后二者为斜交转轴,因素间彼此有某种程序的相关。常用的斜交旋转法是(OBLIMIN)法,参数delta控制倾斜程度,当delta为0时,因子最倾斜,当delta变得更负,因子变得更不倾斜。,因子旋转,直交转轴的优点是因素间提供的信息不会重叠,观察对象在某一个因素的分数与在其它因素的分数,彼此独立不相关;缺点:是研究者迫使因素间不相关,但在实际生活中,它们彼此相关的可能性很高。因而转轴方法倾向于较多人为的因素方式,不一定符合现实世界中自然发生的事件。,因子得分,因子得分也就是计算每个被试在公共因子上的取值。统计软件提供三种计算因子得分的方法:回归法、Bartlett法和Anderson Rubin法,这三种方法得到的都是均值为0的分,Anderson Rubin法产生的因子得分总是不相关的,标准差为1,回归法产生的因子得分可能是相关的。对于主成份分析,三种方法产生相同的得分。另外,为了方便量表中计分,我们也可以用因子所属的几个观测变量值之和或平均值作为因子得分。,决定因素与命名,转轴后,要决定因素数目,选取较少因素层面,获得较大的解释量。在因素命名与结果解释上,必要时可将因素计算后分数储存,作为其它程度分析的输入变量。在多变量关系中,变量间线性组合对表现或解释每个层面的方差非常有用。,阅读因素分析结果,Reproduced Correlation Matrix重构相关系数及其残差阵残差多,说明模型不能很好地拟合数据。主成份法得到矩阵 Component Matrix:旋转前的载荷及相关系数矩阵 Rotated Component Matrix极大似然法 Factor Matrix:旋转前的载荷及相关系数矩阵 Rotated Factor Matrix:旋转后的载荷及相关系数矩阵非正交旋转时Factor Matrix:旋转前的载荷矩阵Pattern Matrix:旋转后的载荷矩阵Structure Matrix:旋转后因子与变量间相关系数矩阵,因素分析时还应考虑的因素,从相关矩阵中筛选题项(删除相关较高的题项)样本大小题项与受试者的比例最好为1:5受试总样本总数不得少于100人,应该尽可能加大。,操作程序,数据:cha-3.sav执行命令,打开对话框将量表的题项选入右侧的框中。需要时可以选择提供选择标准的变量描述统计子对话框统计项:显示每一题项的均值、标准差显示因素分析未转轴前的共同性、特征值、方差百分及累积百分比相关系数矩阵区:相关矩阵、显著性水平、KMO等,操作程序,Extraction子对话框选择抽取因素的方法(一般使用默认选项即可)分析方法选项:以相关矩阵抽取以协方差矩阵抽取因素显示项:显示未转轴刊因素负荷、特征值及共同性(默认)陡坡图(建议选用)抽取因素的标准:特征值大于1选择因子数转轴时执行的最多迭代次数(默认25),操作程序,Rotation旋转子对话框转轴的方法(共5种):除NONE外的上面三个为直交转轴法下面一行的两个为斜交转轴法建议选择Varimax即正交最大变异法。显示区:转轴后的相关信息绘制因素的散布图:因子负荷与集中图迭代次数(与上一子对话框中同,?)Option子对话框上面为缺失值的处理方法(3种方法)下面是显示方法根据每一因素层面之因素负荷量的大小排序(建议选择)不输出选项(视而不见,默认即可)Score子对话框(用于保存,不需要),结果及解释,输出的结果很多,