传播方法论调查方法2:基础统计学.ppt
基础统计学简介,2023/11/11,2,第一节 概述,一、统计学统计学是应用数学的一个分支描述、组织和解释数据或信息的一套工具和技术利用概率论建立数学模型,收集所观察系统的数据,进行量化的分析、总结,并进而进行推断和预测,为相关决策提供依据和参考,2023/11/11,3,二、两个概念描述性统计(Descriptive Statistics)推论性统计(Inferential Statistics),2023/11/11,4,1、描述性统计组织、描述和总结所收集到的一组数据的特征它所描述的是这组数据本身的分布特征 测量层次(适用于较低测量层次的统计法,可以适用于较高层次,反之则不成立),2023/11/11,5,2、推论统计从一个较小的群体中了解的信息并得出相关结论,推广到更大的一个群体我们把较小的这个群体,也就是我们收集了数据的群体称之为样本(sample),把更大的那个群体,也就是我们所感兴趣的、要研究的对象群体称之为总体(population)。统计值参数值,2023/11/11,6,三、变量的层次定类变量:按事物性质划分,是一种分类体系。比如:性别,婚姻状况等。定序变量:数据具有某种逻辑顺序,有高低、大小、强弱差异。比如等级评定、学历、喜爱程度等。定距变量:反映事物在数量方面的差异,具有相等的单位。比如智商、温度等。定比变量:不仅具有相当单位,还具有实际意义的绝对零点。比如年龄、收入等。,2023/11/11,7,2023/11/11,8,第二节 单变量描述统计,一、基本技术(一)定类层次1、次数分布2、比例3、比率4、对比值5、图示法,2023/11/11,9,1、次数分布(frequency distribution)原理与做法:思考:从右边两个表格可以说明什么?不可以说明什么?,2023/11/11,10,2、比例(proportions)每类的次数除以总数原理:使不同样本的总数变成同一个基数,即都以1为基数,就可以比较了,2023/11/11,11,2023/11/11,12,3、比率(rates)原理:把计算比例时所用的基数扩大百分率(f/n)*100千分率 f/n*1000万分率 f/n*10000,2023/11/11,13,2023/11/11,14,4、对比值(ratios)A数值与B数值的对比值,就是A除以B全校学生43285人,教师6118人生师比为:43285/61187.1:1,2023/11/11,15,5、图示法长条图:bar chart,2023/11/11,16,圆瓣图:pie chart,2023/11/11,17,(二)定序层次1、累加次数2、累加百分比,2023/11/11,18,2023/11/11,19,(三)定距层次1、分组组限:上限、下限组距:示例,2023/11/11,20,2、图示(1)矩形图(直方图)histogram,2023/11/11,21,(2)线形图(Line Chart),2023/11/11,22,二、集中趋势测量法集中趋势的量度(measures of central tendency):共性找出一个数值来代表变项的资料分布,以反映资料的集结情况可以根据这个代表值来估计或预测每个研究对象的数值,2023/11/11,23,(一)定类变项:众数(mode)次数最多之值,2023/11/11,24,(二)定序变项:中位数(median)一个序列的中央位置之值,即高于此值也有50%的个案,低于此值也有50%按照某种顺序排列,之后寻找位于频次中间的值,2023/11/11,25,求中位值Md位置=(n+1)/2有男女两组成绩的定序数据男:优,优,良,良,中,中,中,中,差女:优,优,优,良,良,中,中,中,中,差,2023/11/11,26,(三)定距变项:平均值(mean),2023/11/11,27,报纸上报道有个人在一条河中淹死了,这条河的平均深度仅2 尺。怎么回事?,平均数怎么回事?,2023/11/11,28,答案:,这个人是在一个10多尺深的陷坑处沉下去的。,2023/11/11,29,吉斯莫先生的企业招新员工,他承诺所有员工的平均薪金是每周300 元。萨姆十分乐意地接受了这份工作,但没过多久就发现没有一个普通员工的工资超过每周100 元。怎么回事?,2023/11/11,30,答案,原来吉斯莫的企业中有少数高薪管理者是他的亲戚,由于存在极端值的影响,平均工资虽然很高,但考虑一下众数,你就会发现大多数人的工资都很低。,2023/11/11,31,骗人的平均数,不宜使用均值的情况:极端值非常特殊,代表性有问题,2023/11/11,32,三、离散趋势测量法(measures of variability):异质性求出一个值表示个案与个案之间的差异情况,2023/11/11,33,(一)定类变项,n为全部个案数目,fmo是众值的次数,离异/异众比率,简写v,2023/11/11,34,某院系对大四学生的就业意愿进行了调查,请根据右表进行有关阐述。,2023/11/11,35,(二)定序变项四分位差:将一组数据按顺序排列,将数据的个数分为四个相等的部分除去两端的两个25%的数据,以中间50%的数据所占的范围作为数据分散程度的指标,2023/11/11,36,(三)定距变项全距(range)、标准差(standard deviation)、方差(variance)全距=最大数-最小数简单但粗糙,2023/11/11,37,2、标准差反映的是每一个个案的分值与平均的分值之间的差距,简单来说,就是平均差异有多大。标准差越大表示差异越大。,2023/11/11,38,3、方差标准差的平方,2023/11/11,39,五、单变量描述统计的作用样本情况报告了解数据的基本情况(判断数据质量),2023/11/11,40,众数中位数平均值,集中趋势值,离散趋势值,异众比率四分位差全距标准差,2023/11/11,41,六、单变量描述的操作1、次数、百分数等Frequencies2、中位数等Frequencies+statistics3、均值与标准差Descriptive,2023/11/11,42,第三节 双变量描述性统计,2023/11/11,43,相关:一个变项的值与另一个变项的值有连带性相关的三种情况:正相关、负相关、零相关相关程度(01)相关的方向(+-),2023/11/11,44,交互分类与百分表,交互分类:同时依据两个变项的值,将所研究的个案分类列联表(交互分类表)表的大小=行*列自变量、因变量,2023/11/11,45,2023/11/11,46,制作条件百分表的准则信息清楚、表格简洁社会学研究的常规做法:以自变项为计算百分率的方向根据自己的研究需要三线表的制作(表格简明型1,去掉末行),2023/11/11,47,第四节 相关测量法,相关测量法以一个统计值表示变项之间的相关程度这个值,通常称为相关系数,2023/11/11,48,定类和定类变量定类和定序变量,Lambda相关测量法tau-y相关测量法,基本逻辑:以一个定类变项的值来预测另一个定类变项的值时,可以减少多少误差其值介于01之间,2023/11/11,49,例题:考察性别(v2)与政治面貌(d11a)之间的关系,2023/11/11,50,定序和定序变量,Gamma系数,Gamma系数按照同序对和异序对个数来计算两定序变量的相关程度和方向;同序对和异序对相差越大,说明相关越强,2023/11/11,51,例题:考察受教育程度b4_a与对自己社会地位满意程度i5_a之间的关系,2023/11/11,52,定类和定距变量定序和定距变量,相关比率(eta平方系数)原理:根据自变量取值来预测或估计因变量的均值,2023/11/11,53,例题:考察性别(v2)与家务劳动时间之间的关系,2023/11/11,54,定距和定距变量,相关系数r即皮尔逊相关系数,原理:两个变量以平均数为基准的平均共变程度 r本身不具有消减误差比率的性质,但r2具有这一性质,2023/11/11,55,例题:考察读书年数(b2)与收入之间(c18_a)的关系,2023/11/11,56,消减误差比例(PRE/proportionate reduction in error)PRE数值的意义为,用一个变项来解释另一个变项时能够减少的错误比率X与Y的关系越强,所能减少的预测误差就会越多,2023/11/11,57,第五节 假设检验,假设检验是根据样本调查结果证实或推翻总体有关假设的一种推论统计方法。,2023/11/11,58,最终目的,总体参数值,样本统计值,估算,验证,统计推论逻辑思路,2023/11/11,59,思路,常用分布(统计理论确定),根据样本计算特定统计量,判断此统计量在理论分布中出现的概率情况,此过程称为“统计推论”,2023/11/11,60,统计推论:用于抽样调查资料的处理根据局部资料(样本资料)对总体的特征进行推断,属于归纳推理的范畴,不可能保证100%正确。1、由于局部资料源于总体,因此局部资料的特性在某种程度上能反映总体的特性。2、由于社会资料的随机性,即抽样结果不是唯一的,又使得一次抽样结果不能恰好就等于总体的结果。,2023/11/11,61,(一)卡方检验,常用的几种检验方法,适用于定类、定序变量原理:以理论次数为基准考察实际次数与理论次数之间的偏离程度通常结果要汇报卡方值2、自由度df、显著度p。,2023/11/11,62,(二)z检验和t检验主要用于总体参数的检验,包括平均数、百分比等的检验。,2023/11/11,63,Z检验基于正态分布,要求大样本,t检验则基于t值抽样分布,可用于小样本。因为当样本增大时,t值会逐渐接近正态分布,这时,二者区别不大。因此,不论样本大小如何,皆可用t检验。Z检验可以说是t检验的一种特殊(大样本)情况。在近代社会研究中,t检验应用更为广泛。,2023/11/11,64,t检验的几种类型One-sample t test与已有的某一参照值进行比较Independent-samples t test用于比较同一变量内两组数据之间的差异,而该两组数据是按照某一定类变量或定序变量划分的。Paired-sample t test配对样本t检验,用于同一批个案在两种不同情况下或两个变量中的差异分别举例演示,2023/11/11,65,(三)F检验(方差分析ANOVA)原理:通过对方差的分解和比较,以确定主要变异来源主要用途:比较几个均值之间是否存在显著差异适用于定距变量间的相关检验计算:F组间均方/组内均方演示,2023/11/11,66,总 结,2023/11/11,67,演示习题,分别对性别与政治面貌、受教育程度、读书年数等的关系进行探索,将结果撰写成简要报告。,