数理统计第一章和第二章.ppt
数理统计,第一章.统计学含义,1、统计学含义:统计学:是一门搜集、整理和分析统计数据的方法的科学,目的是探索数据的内在数量规律性,以达到对客观事物的科学认识。,统计数据的搜集是取得统计数据的过程,是进行统计推断的基础。如何取得准确、可靠的统计数据是统计学研究的内容之一。统计数据的整理是对统计数据的加工处理过程,目的是使统计数据系统化、条理化,符合统计分析的需要。它是数据搜集与数据分析之间的一个必要环节。统计数据的分析是统计学的核心内容,是通过统计描述和统计推断的方法探索数据内在规律的过程。Statistics:以单数名词出现时表示“统计学”;以复数名词出现时表示“统计数据”或“统计资料”。,单个数据没有多大意义,但通过多次观察或实验得到大量的统计数据,利用统计方法可以探索出其内在数量规律性。例如:新生婴儿的性别比例统计规律是:男:女=107:100 掷硬币试验中正反面比例的统计规律是:正面:反面=1:1,2 统计学的分类,根据统计方法的构成分为:描述统计学推断统计学根据统计方法的研究与应用分为:理论统计学应用统计学,描述统计学,描述统计学主要研究如何整理科学实验或调查得来的大量数据,通过图表的形式描述一组数据的全貌,并计算出一些统计特征,具体内容包括:数据如何分组如何使用各种统计表和统计图的方法去描述一组数据的分组及分布情况如何通过一组数据计算一些特征数,简缩数据,进一步显示与描述一组数据的全貌。,表示数据集中情况的特征有:算术平均数、中数、众数、几何平均数、调和平均数等;表示数据分散情况的特征有:平均差、标准差、变异系数、标准分数等表示事物两种以上性质之间关系情况有:相关系数表示数据分布是否对称、偏斜的程度及扁平程度的特征有:偏度与峰度。,数据的一些统计特征,推断统计学,推断统计学是研究如何根据样本数据去推断总体数量特征的方法。它是在对样本数据进行描述的基础上,对统计总体的未知数量特征作出以概率形式表达的推断。具体说,如何从局部的数据估计全局的情况;如何对假设进行检验与估计;如何对影响事物变化的因素进行分析;如何对两种事物或多种事物之间的差异进行比较等。,推断统计的方法有:(1)记数资料检验方法。包括:比例检验、卡方检验等;(2)假设检验的各种方法。包括:大样本的检验方法(z检验法);小样本的检验方法(t 检验法);方差分析;回归分析方法等;(3)总体特征数(总体参数)的估计方法;(4)各种非参数的统计方法。,理论统计学:指统计学的数学原理。它主要研究统计学的一般理论和统计方法的数学理论。它是统计学的理论基础。,应用统计学:研究如何应用统计方法去解决实际问题。统计学是分析数据的科学,在自然科学及社会科学研究领域,都需要通过数据分析解决实际问题,统计学的应用几乎扩展到了所有的科学研究领域。如:生物统计学、医疗卫生统计学、农业统计学、工业统计学、经济管理统计学、社会统计学、人口统计学、教育与心理统计学等。,统计学探索客观现象规律性的过程,反映客观现象的统计数据,描述统计学(包括统计数据的搜集、整理、显示和分析),推断统计学(利用样本信息和概率论对总体的数量特征进行估计和经验等),概率论(包括分布理论、大数定律和中心极限定理等),总体内部的数量规律性,样本数据,总体数据,起点,终点,3、几个基本概念,1)随机变量随机现象:在相同条件下进行的实验或观察,其可能结果不止一个,事先无法确定,这类现象称为随机现象。随机变量:随机现象的各种结果总是可以用一定的数量来表现,而且表现为实验结果数值的不确定性,因而称为变量。这种变量受随机因素的影响,呈随机变化,具有偶然的一面,但也具有规律性的一面。通过大量的实验或观察,这种规律性可以揭示出来。把这种具有变化规律的变量称为随机变量。,2)总体、样本、个体,总体(Population):指具有某种特征的一类事物的全体,又称母体。个体(Element):构成总体的每个基本单元。样本(Sample):从总体中抽取的一部分个体,即总体的一个子集。,3)次数、比例、百分比、比率,1、次数(Frequency):也叫频数,落在各类别中的数据个数。2、比例(Proportion):一个总体中各个部分的数量占总体数量的比重。Ni/N3、百分比(Percentage):比例乘以100就是百分比或百分数。4、比率(Ratio):各不同类别的数量的比值。,4)统计量与参数,统计量(Statistic):是样本的函数,只跟样本有关,与总体参数无关。如样本平均数()、样本标准差(S)、样本相关系数(r)、回归系数(b)等。可以用统计量对总体参数进行估计或进行假设检验。,参数(Parameter):总体参数,指描述一个总体情况的一些统计指标。如总体平均值或期望值,用符号 表示;反映总体分散情况的指标如标准差,用 表示;反映某事物两特性总体之间关系的统计指标为相关系数,用 表示;表示两特性之间数量关系的统计指标是回归系数,用表示。,第二章、数据的搜集、整理与显示,2.1 数据的计量与类型,2.1.1 数据的计量尺度(1)定类尺度(Nominal Scale)(2)定序尺度(Ordinal Scale)(3)定距尺度(Interval Scale)(4)定比尺度(Ratio Scale),定类尺度 也叫类别尺度或列名尺度。只能按照事物的某种属性对其进行分类或分组。是最粗略,层次最低的计量尺度。如性别(男、女)、学历、企业性质、职业、地区等。由于定类尺度只能区分事物是同类或不同类,因此它具有“和”的数学特性。通常计算每一类别中各元素或个体出现的“频数或频率”来进行分析。,定序尺度 也叫顺序尺度,是对事物之间等级差别或顺序差别的一种测度。它不仅可以将事物分成不同的类别,而且还可以确定这些类别的优劣或顺序。如:考试成绩:优、良、中、及格、不及格。教育水平:小学及以下、初中、高中、大学及以上。该尺度具有“和”、“和”的数学特性,但不能进行加、减、乘、除运算。,定距尺度 也叫等距尺度或间隔尺度,不仅能将事物分为不同类型并进行排序,而且还可以准确地指出类别之间的差距是多少,表现为数值。如考试成绩百分制;温度等。定距尺度具有定类尺度和定序尺度的数学特性外,其结果还可以进行“加、减”运算。,定比尺度 也叫比率尺度,表现为数值,它具有上述三种尺度的全部特性外,还可以计算两个测度值之间的比值。有一个绝对“零点”。如长度米、重量千克、收入元等。定距尺度中没有绝对“零点”。“0”表示一个数值,即“0”水平,而不表示“没有”或“不存在”。如“0”度表示一种温度水平,并不是没有温度。定比尺度中“0”表示“没有”或“不存在”。定距尺度只能进行加、减运算,而定比尺度可进行加、减、乘、除运算。,四种计量尺度的比较,2.2 数据的类型与分析方法,统计数据是采用某种计量尺度对事物进行计量的结果。采用不同的计量尺度会得到不同类型的统计数据。,不同类型的数据,定类数据:表现为类别,但不区分顺序,由定类尺度计量形成;定序数据:表现为类别,但有顺序,由定序尺度计量形成;定距数据:表现为数值,可进行加、减,由定距尺度计量形成;定比数据:表现为数值,可进行加、减、乘、除,对应于定比尺度;定性数据(Qulitative Data):定类数据、定序数据定量数据(Quantitative Data):定距数据、定比数据,不同类型的数据采用不同的统计方法,定类数据:计算各组的频数、频率,众数、列联分析、2检验等。定序数据:中数(中位数)、四分位差、等级 相关系数、非参数分析。定距数据、定比数据:计算各种统计量、参数 估计、检验。适用于低层次测量数据的统计方法,也适用于较高层次的测量数据。,变量(Variable):说明事物某种特征的 概念,它的具体表现为变量值,定类变量(Nominal Variable):由定类数 据记录,如性别(男、女);定序变量(Ordinal Variable):由定序数据 记录,如产品等级(一、二、三级);数值变量(Numerical Variable):由数量 数据记录,如年龄、时间、产量等,2.3 统计数据的整理与显示,通过各种渠道搜集到统计数据之后,首先应对其进行加工整理,使之系统化、条理化,以符合分析的需要。整理可以大大简化数据,更容易理解和分析。,数据整理:数据的预处理数据的审核与筛选-检查每个样本点是否完整、准确;将不符合要求的数据删除,符合条件的选出来。数据的排序-便于发现数据特征或趋势,也有助于检查错误分类或分组汇总,2.3.1 品质数据的整理与显示,对品质数据主要做分类整理对数值型数据主要做分组整理1、定类数据的整理与显示(1)整理不仅列出事物的类别,还要计算出每一类别的频数、频率或比例、比率(2)显示选择适当的图形进行显示,以便对数据及其特征有一个初步的了解,2、定序数据的整理与显示,定类数据的整理和显示的内容都适用于定序数据。除此之外定序数据还可以计算累积频数和累积频率,图形显示用到累积频数分布图和环形图。(1)累积频数(Cumulative frequencies):将各类别的频数逐级累加起来。有两种方法:向上累积:从类别顺序开始一方向最后一方累加频数;向下累积:从类别顺序最后一方向开始一方累加频数(2)累积频率或百分比(Cumulative percentages),2.3.2 数值型数据的整理与显示,一、数据的分组 数值型数据包括定距数据和定比数据,在整理时通常要进行分组。然后再计算出各组中出现的次数或频数。分组方法有单变量值分组和组距分组。1、单变量值分组 把每一个变量值作为一组,它只适合于离散变量且变量值较少的情况。,2、组距分组,在连续变量或变量值较多的情况下,可采用组距分组。它将全部变量值依次分为若干个区间,并将这个区间的变量值作为一组。下限(Low limit):一个组的最小值上限(Upper limit):一个组的最大值,组距分组的步骤:第一步:确定组数 组数过多过少都不合适。太少,数据分布过于集中;太多,数据分布过于分散。都不利于观察数据的分布情况。在实际应用中可按Strurges提出的经验公式来确定k,k=1+lgn/lg2,n为数据个数。如:n=50,k=1+lg50/lg2=7第二步:确定组距 组距是一个组的上限与下限之差。组距=(最大值-最小值)/组数 上例中,组距=(139-107)/7=4.6,为便于计算组距取5。第三步:根据分组整理成频数分布表,数值型数据的图示(一)分组数据:直方图和折线图直方图(Histogram):用矩形的宽度和高度来表示频数分布的图形。直方图与条形图的区别:条形图的长度表示各类别的频数,宽度是固定的;直方图用面积表示各组频数的多少,高度表示每一组的频数或百分比,宽度表示各组的组距,高度和宽度都有意义。直方图通常是连续排列,而条形图是分开排列。折线图:频数多边形图(Frequency polygon)把直方图顶部的中点用直线连接起来,再把原来的直方图抹掉,就是折线图。,组距分组数据:直方图和折线图,3、频数分布的类型,正态分布正偏态(右偏)分布负偏态(左偏)分布正J形分布负J形分布U形分布,