《基本概念介绍》PPT课件.ppt
《《基本概念介绍》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《基本概念介绍》PPT课件.ppt(79页珍藏版)》请在三一办公上搜索。
1、1,基本概念介绍,吴喜之,2,随机性和规律性,有许多定律,例如牛顿三定律,物质不灭定律,爱因斯坦相对论等等。但是在许多领域,很难用如此确定的公式或论述来描述一些现象。比如,人的寿命。一个吸烟、喝酒、不锻炼、而且一口长荤的人可能比一个很少得病、生活习惯良好的人活得长。可以说,活得长短是有一定随机性的(randomness)。这种随机性可能和人的经历、基因、习惯等无数说不清的因素都有关系。,3,随机性和规律性,从总体来说,我国公民的预期寿命却是非常稳定的。而且女性的预期寿命也稳定地比男性高几年。这就是规律性。你可能活过这个寿命,也可能活不到这个年龄,这是随机的。但是总体来说,预期寿命的稳定性,却说
2、明了随机之中有规律性。这种规律就是统计规律。,4,概率和机会,常听到概率这个名词。如天气预报中提到的降水概率。如果降水概率是百分之九十,那就很可能下雨;但如果是百分之十,就不大可能下雨。因此,从某种意义说来,概率描述了某件事情发生的机会。显然,这种概率不可能超过百分之百,也不可能少于百分之零。换言之,概率是在0和1之间的一个数,说明某事件发生的机会有多大。,5,有些概率是无法精确推断的,比如你对别人说你下一个周末去公园的概率是百分之八十。但你无法精确说出为什么是百分之八十而不是百分之八十四或百分之七十八。其实你想说的是你很可能去,但又没有完全肯定。实际上,到了周末,你或者去,或者不去;不可能有
3、分身术把百分之八十的你放到公园,而其余的放在别处。,6,有些概率是可以估计的,如掷骰子。只要没有人做手脚,你得到任何点的概率都应该是六分之一。这反映了掷骰子的规律性。但掷出骰子之后所得到的结果还只可能是六个数目之一。这体现了随机性。如果你掷1000次骰子,那么,大约有六分之一的可能会得到6;这也说明随机结果也具有规律;而且有可能通过试验等方法来推测其规律。,7,我们就是要通过对世界的观测数据,在随机性中寻找用概率和数学模型描述的规律性,8,总体:我们感兴趣的那部分现实世界,总体通常用变量来代表变量可以是一维或多维的变量可以是定性或者定量的定性变量由随机(数量)变量描绘随机变量有分布(总体分布)
4、而分布又由(总体)参数来区别总体和变量永远也不可能全部认识只有通过样本才能够明白,9,总体通常用变量来代表,一个调查问卷可能有关于性别、年龄、收入、观点、教育程度、财产情况、纳税情况、职业等问题。这些:性别、年龄、收入、观点、教育程度、财产情况、纳税情况、职业等,都是变量,10,变量可以是一维或多维的,年龄,收入等都是一维的而地理坐标就是二维的许多变量的组合,则可能是多维的。,11,变量可以是定性或者定量的,性别、观点、教育程度、职业等变量是定性的。年龄、收入、财产情况、纳税情况等变量可以是定量的,12,定性变量也要由随机(数量)变量描绘,性别、观点、教育程度、职业等变量是定性的,无法用数量直
5、接描述但是,它们的频数、比例等可以用数量描述没有用数量描述的量,无法参加数据分析过程,13,随机变量有分布(总体分布),有离散性分布(如二项分布、Poisson分布、超几何分布)也有连续性分布(如正态分布、t分布,c2分布,F分布),14,离散分布,15,随机回答选答题可能得到的分数,例:纯粹随机回答三个单选题(每个5种选择)可能答对0、1、2、3题的概率为,16,可用表或公式描述分布(想想为什么),17,上面例子为:二项分布随机变量Binomial random variable,18,它相当于从一个装有1个红色球和4个蓝色球(总数5个)的罐子,每次随机取出一个,观察其颜色;再放回;再接着取
6、下一个(放回抽样)。一直取3次(回答3个问题)一次抽取得到红色(答对)的概率为 p=1/5,而得到蓝色的概率为q=1-p=4/5.,19,均观测不到红球(答对0题)的概率为p(0)=P(BBB)=P(B)P(B)P(B)=(4/5)(4/5)(4/5)=(4/5)3=q3 0.512只观测到1次红球(恰答对1题)的概率为p(1)=P(RBB)+P(BRB)+P(BBR)=(1/5)(4/5)(4/5)+(4/5)(1/5)(4/5)+(4/5)(4/5)(1/5)=3(1/5)(4/5)2=3pq2=0.384.只观测到2次红球(恰答对2题)的概率为p(2)=P(RRB)+P(RBR)+P(B
7、RR)=(1/5)(1/5)(4/5)+(1/5)(4/5)(1/5)+(4/5)(1/5)(1/5)=3(1/5)2(4/5)=3p2q=0.096.三次抽取,均为红球的概率为p(3)=P(RRR)=(1/5)(1/5)(1/5)=(1/5)3=p3=0.008.,三次抽取(回答3题),20,注意二项式展开的系数,21,n 次同等条件的独立试验每次试验仅有两种结果,通常记为S(成功)和 F(失败).成功(S)的概率在每次试验保持不变,用p表示,失败(F)概率则为 q=1-p.n 次试验中成功的数目x,则为二项随机变量.,二项随机变量,22,在某些固定的条件下,人们认为某些事件出现的次数服从P
8、oisson分布,比如在某一个时间段内某种疾病的发生病数,显微镜下的微生物数,血球数,门诊病人数,投保数,商店的顾客数,公共汽车到达数,电话接通数等等.,Poisson随机变量,23,连续分布情况,24,连续分布的密度函数:Probability distributions(also called probability density function frequency function)for continuous random variables(The following is a normal distribution),比如,概率 P(-.5x1),为在区间(-.5,1)上曲线下
9、面的面积.,25,均值(mean)m=0,标准差(standard deviation)s=1 的正态分布称为标准正态分布.通常用z表示标准正态随机变量.如果x为有均值m和标准差s的正态变量,那么 z=(x-m)/s,即x的标准得分 z-score为标准正态分布.比如,x为均值m=2,标准差s=0.5的正态变量,则 z=(x-m)/s=(x-2)/.5 为标准正态分布.,26,标准正态分布N(0,1),m=0,s=1.,F(1.96)=P(Z1.96)=1-0.02499790P(Z1.96)=1-F(1.96)=1-0.9750021=0.02499790,27,分布 N(0,1)和N(-2
10、,0.5)的密度函数,不同均值 m 和标准差 s 的密度曲线有不同的位置和形状,28,这几个分布都是正态分布导出的分布,一般不描述什么实际现象,但是在进行检验时,总体为正态分布的随机变量的一些变换呈这些分布,用于相应的检验。比如t检验c2检验和F检验。其实,t分布是正态变量标准化时,用样本标准差s代替总体标准差s的结果。c2分布为独立正态变量的平方和的分布,F分布为c2分布(除以其自由度后)之比。,t分布c2分布和F分布,29,分布由总体参数来区分,二项分布Bin(n,p)的总体参数为试验次数n和“成功”概率p正态分布N(m,s)由位置参数(均值)m和形状参数s区分,Density curve
11、s of N(0,1)and N(-2,0.5),30,样本数据:我们能够摸的着的部分,我们通常只能够通过抽取样本来得到对总体的理解样本统计量对总体特征的描述最好的样本是随机样本数据的收集(二手数据、试验数据、一手数据、抽样调查)抽样调查的各种误差抽样调查的问卷设计抽样调查数据问题的例子(另外文件),31,总体和样本,要想了解北京市民对建设北京交通设施是以包括轨道运输在内的公共交通工具为主还是以小汽车为主的观点,需要进行调查;调查对象是所有北京市民,调查目的是希望知道市民中对这个问题的不同看法各自占有的比例。显然,不可能去问所有的北京市民,而只能够问一部分;并根据这部分观点来理解整个北京市民的
12、总体观点。,32,总体和样本,在这个例子中,单个北京市民的观点称为个体(element 或 individual),而称所有北京市民对这个问题的观点为一个总体(population),总体是包含所有要研究的个体的集合。而调查时问到的那部分市民的观点(也就是部分个体)称为该总体的一个样本(sample),是总体中选出的一部分。当然,也有可能试图调查所有的人(比如人口普查),那叫做普查(census)。普查就一定比抽样准吗?,33,数据的描述,如同给人画像一样,34,直方图,比如某个地区(地区1)学校高三男生的身高;有163个度量如何用图形来表示这个数据,使人们能够看出这个数据的大体分布或“形状”
13、呢?一个办法就是画一个直方图(histogram)。,35,36,盒型图,比直方图简单一些的是盒形图(boxplot,又称箱图、箱线图、盒子图)。后面图的左边一个是根据地区1高三男生的身高数据所绘的盒形图;其右边的图代表另一个地区(地区2)的高三学生的身高,37,第三四分位点,中位数,第一四分位点,38,茎叶图,地区1高三男生身高数据的茎叶图,39,HEIGHT Stem-and-Leaf Plot Frequency Stem&Leaf 9.00 15.001223344 17.00 15.55666667778899999 35.00 16.555556666666677777888888
14、88888999999 24.00 17.555666677777777777888899 11.00 18.55667788899 4.00 19.2333 2.00 19.56 3.00 Extremes(=198)Stem width:10.00 Each leaf:1 case(s),40,散点图,往往人们得到的数据有两连续个变量的,比如美国男士和女士初婚年限的数据。该数据描述了自1900年到1998年男女第一次结婚延续的时间的中位数。当然,不可能将所有人的婚姻年限都给出来。所以,每年就取了一个中间的值(中位数)作为代表。自1900到1960年是每十年一个值,以后到1990是每五年取一
15、个数,1995年以后是每年一个数。这里的一个变量为记录年份,另一个是结婚时间长短。由于分男士和女士,因此有两二维数据。这时可以以一个变量为横坐标(如年份),另一个为纵坐标(这里是结婚年限)来点图。这种图称为散点图(scatter plot)。还可以看出在二十世纪六十年代婚姻年限降低,而后来又升高。而男子的年限平均比女性长。这个图是用SPSS画的。,41,42,定性变量的点图,定性变量(或属性变量,分类变量)不能点出直方图、散点图或茎叶图,但可以描绘出它们各类的比例。下面用SPSS绘的图表示了说世界各种主要语言的人数的比例,43,饼图,44,条形图,45,汇总统计量或概括统计量(summary
16、statistic),46,汇总统计量(位置),均值(mean):样本值的算术平均值中位数(median):中间大小的数(一半样本点小于中位数)(第一或第三)(下、上)四分位数(点)(first quantile,third quantile)(分别有1/4或3/4的数目小于它们)k-百分位数(k-percentile)a分位数(a centile):k-百分位数=k%分位数:有k%的数目小于它众数(mode):样本中出现最多的数,47,汇总统计量(尺度)(scale statistic),极差(range):极端值之差四分位间距(四分位极差)(interquantile range)四分位数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基本概念介绍 基本概念 介绍 PPT 课件

链接地址:https://www.31ppt.com/p-5487104.html