随机抽样与用样本估计总体.ppt
1,第三讲,随机抽样与用样本估计总体,第十一章 概率与统计,大旺中学2012年高考数学一轮复习,2,1.简单随机抽样(1)定义:设一个总体含有N个个体,从中 抽取n个个体作为样本(nN).如果每次抽取时总体内的各个个体被抽到的机会,我们把这种抽样方法叫做简单随机抽样.(2)最常用的简单随机抽样的方法有:和.2.系统抽样的步骤假设要从容量为N的总体中抽取容量为n的样本,其步骤是:,逐个不放回地,都相等,抽签法,随机数法,大旺中学2012年高考数学一轮复习,3,(1)先将总体的N个个体;(2)确定,对编号进行.当 是整数时,取k=;当 不是整数时,使剩下的总体中个体的个数N这时取k=,并将剩下的总体;(3)在第一段用 确定第一个个体编号l(lk);,编号,分段间隔k,分段,从总体中剔除一些个体,能被n整除,,,重新编号,简单随机抽样,大旺中学2012年高考数学一轮复习,4,(4)按照一定的规律抽取样本,通常是将l加上间隔k得到第2个个体编号,再加k得到第3个个体编号,依次进行下去,直到获取整个样本.3.分层抽样定义:当总体由的几个部分组成时,常将总体中的个体按不同的特点分成层次比较分明的部分,然后按照.实施抽样,这种抽样方法叫做分层抽样.,l+k,l+2k,差异明显,一定的比例,大旺中学2012年高考数学一轮复习,5,4.频率分布直方图在频率分布直方图中,纵轴表示,数据落在各小组内的频率用 表示,所有长方形面积之和。5.作频率分布直方图的步骤(1)求极差(即一组数据中 与 的差);(2)决定 与;(3)将数据;(4)列;(5)画.,最大值,最小值,组距,组数,分组,频率分布表,原频率分布直方图,大旺中学2012年高考数学一轮复习,频率/组距,小长形的面积,等于1,6,6.频率分布折线图连接频率分布直方图中各小长方形上端的,就得到频率分布折线图.7.茎叶图(1)两位数字的茎叶图将所有两位数的 作为“茎”,作为“叶”,茎相同者共用一个茎,茎按的顺序从上向下列出,共茎的叶一般按或 的顺序同行列出,即得到这组数据的茎叶图.,十位数字,个位数字,从小到大,从大到小,从小到大,大旺中学2012年高考数学一轮复习,中点,7,(2)三位数字的茎叶图将数据中所有三位数的作为“茎”,作为“叶”,茎相同者共用一个茎,茎按 的顺序从上向下列出,共茎的叶一般按 或的顺序同行列出,即得这组数据的茎叶图.,十位与百位数字,个位数字,从小到大,从大到小,从小到大,大旺中学2012年高考数学一轮复习,8.众数、中位数、平均数(1)在一组数据中,出现次数 的数据叫做这组数据的众数。(2)将一组数据按大小依次排列,把处在 位置的一个数据(或中间两个数据的平均数)叫做这组数据的中位数。(3)如果有n个数x1,x2,xn,那么 叫做这n个数的平均数。,大旺中学2012年高考数学一轮复习,最多,中间,9,9.标准差和方差已知一组数据x1,x2,xn的平均数为.(1)方差:s2=.(2)标准差是样本数据到平均数的一种;标准差s=.,平均距离,大旺中学2012年高考数学一轮复习,10,1.下面不为总体特征数的是()A.总体平均数 B.总体方差C.总体标准差 D.总体样本,D,大旺中学2012年高考数学一轮复习,2.2010年7月,某校进行了期末统考,为了了解高一年级1000名学生的考试成绩,从中抽取了100名学生的成绩.就这个问题而言,下面说法正确的是()A.1000名学生是总体B.每个学生是个体C.1000学生的成绩是一个个体D.样本的容量是100,D,11,3.为了抽查某城市汽车尾气排放执行标准情况,在该城市的主干道上采取抽取车牌末位数字为5的汽车检查,这种抽样方法称为()A.简单随机抽样 B.随机数表C.系统抽样 D.分层抽样,C,大旺中学2012年高考数学一轮复习,4.将参加数学竞赛的1000名同学编号如下:0001,0002,1000.现从中抽取一个容量为50的样本,按系统抽样的方法分成50个部分.若第一部分的编号为0001,0002,0020,且从第一部分随机抽取的号码为0015,则第40个号码为.,0795,12,5.某厂生产A、B、C三种不同型号的产品,产品数量之比依次为235.现用分层抽样方法抽出一容量为n的样本,样本中A种型号产品有16件.那么此样本的容量n=_.,80,大旺中学2012年高考数学一轮复习,6.一个样本数据按从小到大的顺序排列为:13,14,19,x,23,27,28,31,其中,中位数为22,则x()A.21 B.22 C.23 D.20,A,13,题型1:随机抽样及其应用某单位最近组织了一次健身活动,活动分为登山组和游泳组,且每个职工至多参加了其中一组.在参加活动的职工中,青年人占42.5%,中年人占47.5%,老年人占10.登山组的职工占参加活动总人数的 且该组中,青年人占50,中年人占40,老年人占10.为了了解各组不同的年龄层次的职工对本次活动的满意程度,现用分层抽样的方法从参加活动的全体职工中抽取一个容量为200的样本.试确定:,大旺中学2012年高考数学一轮复习,14,(1)游泳组中,青年人、中年人、老年人分别所占的比例;(2)游泳组中,青年人、中年人、老年人分别应抽取的人数.(1)设登山组人数为x,游泳组中,青年人、中年人、老年人各占比例分别为a、b、c,,大旺中学2012年高考数学一轮复习,15,则有解得b=50%,c=10%,故a=100%-50%-10%=40%.即游泳组中,青年人、中年人、老年人各占比例分别为40、50、10.,大旺中学2012年高考数学一轮复习,16,(2)游泳组中,抽取的青年人为200 40%=60(人);抽取的中年人为200 50%=75(人);抽取的老年人为200 10%=15(人).【评注】弄清抽样方法的区别与联系是解决问题的基础.本例主要考查分层抽样,设登山组人数是入手解决问题的关键.,大旺中学2012年高考数学一轮复习,17,为了考察某校的教学水平,将抽查这个高三年级的部分学生的本学年考试成绩进行考察.为了全面地反映实际情况,采用以下两种方式进行抽查(已知该校高三年级共有20个教学班,并且每个班内的学生已经按随机方式编好了学号,假定该校每班学生人数都相同):从全年级20个班中任意抽取一个班,再从该班中任意抽取20人,考察他们的学习成绩;每个班都抽取1人,共计20人,考查这20个学生的成绩;把学生按成绩分成优秀、良好、普通三个级别,从中抽取100名学生进行考察(已知若按成绩分,该校高三学生中优秀生共150人,良好生共600人,普通生共250人).,大旺中学2012年高考数学一轮复习,18,根据上面的叙述,回答下列问题:(1)上面三种抽取方式中,其总体、个体、样本分别指什么?每一种抽取方式抽取的样本中,其样本容量分别是多少?(2)上面三种抽取方式中各自采用了何种抽取样本的方法?,大旺中学2012年高考数学一轮复习,19,(1)这三种抽取方式中,其总体都是指该校高三全体学生本学年的考试成绩,个体都是指高三年级每个学生本学年的考试成绩.其中第一种抽取方式中样本为所抽取的20名学生本学年的考试成绩,样本容量为20;第二种抽取方式中,样本为所抽取的20名学生本学年的考试成绩,样本容量为20;第三种抽取方式中样本为所抽取的100名学生本学年的考试成绩,样本容量为100.,大旺中学2012年高考数学一轮复习,(2)第一种采用简单随机抽样法;第二种采用系统抽样法和简单随机抽样法;第三种采用分层抽样法和简单随机抽样法.,20,某公司在过去几年内使用某种型号的灯管1000支,该公司对这些灯管的使用寿命(单位:小时)进行了统计,统计结果如下表所示:,题型2:频率分布直方图及其应用,大旺中学2012年高考数学一轮复习,21,(1)将各组的频率填入表中;(2)根据上述统计结果,计算灯管使用寿命不足1500小时的频率.(1)频率依次为0.048,0.121,0.208,0.223,0.193,0.165,0.042.(2)由(1)可得0.048+0.121+0.208+0.223=0.6,所以灯管使用寿命不足1500小时的频率为0.6.,大旺中学2012年高考数学一轮复习,22,【评注】利用样本的频率分布去近似地估计总体的分布,要比较准确地反映出总体分布的情况,必须准确地作出频率分布表和频率分布直方图,充分利用试验的数据正确地作出估计.,大旺中学2012年高考数学一轮复习,23,1.某班50名学生在一次百米测试中,成绩全部介于13秒与19秒之间,将测试结果按如下方式分成六组:第一组,成绩大于等于13秒且小于14秒;第二组,成绩大于等于14秒且小于15秒;第六组,成绩大于等于18秒且小于等于19秒.,大旺中学2012年高考数学一轮复习,24,如图,是按上述分组方法得到的频率分布直方图.设成绩小于17秒的学生人数占全班总人数的百分比为x,成绩大于等于15秒且小于17秒的学生人数为y,则从频率分布直方图中可分析出x和y分别为(),A,大旺中学2012年高考数学一轮复习,A.0.9,35 B.0.9,45C.0.1,35 D.0.1,45,25,2.从一堆苹果中任取20只,并得到它们的质量(单位:支)数据分布如下:则这堆苹果中,质量不小于120克的苹果数约占苹果总数的.,70%,大旺中学2012年高考数学一轮复习,26,3.从某自动包装机包装的食盐中,随机抽取20袋,测得各袋的质量分别为(单位:g):492 496 494 495 498 497 501 502 504 496 497 503 506 508 507 492 496 500 501 499 根据用样本的频率分布估计总体分布的原理,该自动包装机包装的袋装食盐质量在497.5 g501.5 g之间的概率约为.,0.25,大旺中学2012年高考数学一轮复习,27,4.在生产过程中,测得纤维产品的纤度(表示纤维粗细的一种量)共有100个数据,将数据分组如下表:(1)完成频率分布表,并画出频率分布直方图;(2)估计纤度落在1.38,1.50)中的概率及纤度小于1.40的概率是多少?,大旺中学2012年高考数学一轮复习,28,(1)频率分布表补充完整如下:,大旺中学2012年高考数学一轮复习,29,频率分布直方图如下:,大旺中学2012年高考数学一轮复习,(2)纤度落在1.38,1.50)中的概率约为0.30+0.29+0.10=0.69,纤度小于1.40的概率约为0.04+0.25+0.30=0.44.,30,某良种培育基地正在培育一种小麦新品种A.将其与原有的一个优良品种B进行对照试验.两种小麦各种植了25亩,所得亩产数据(单位:千克)如下:品种A:357,359,367,368,375,388,392,399,400,405,412,414,415,421,423,423,427,430,430,434,443,445,445,451,454品种B:363,371,374,383,385,386,391,392,394,394,395,397,397,400,401,401,403,406,407,410,412,415,416,422,430,题型3:茎叶图的应用,大旺中学2012年高考数学一轮复习,31,(1)作出茎叶图;(2)用茎叶图处理现有的数据,有什么优点?(3)通过观察茎叶图,对品种A与B的亩产量及其稳定性进行比较,写出统计结论.,大旺中学2012年高考数学一轮复习,32,(1)茎叶图如下:A B 9 7 35 8 7 36 3 5 37 1 4 8 38 3 5 6 9 2 39 1 2 4 4 5 7 7 5 0 40 0 1 1 3 6 7,大旺中学2012年高考数学一轮复习,33,5 4 2 41 0 2 5 6 7 3 3 1 42 2 4 0 0 43 0 5 5 3 44 4 1 45,大旺中学2012年高考数学一轮复习,34,(2)由于每个品种的数据都只有25个,样本不大,画茎叶图很方便;此时茎叶图不仅清晰明了地展示了数据的分布情况,便于比较,没有任何信息损失,而且还可以随时记录新的数据.(3)通过观察茎叶图可以看出:品种A的亩产平均数(或均值)比品种B高;品种A的亩产标准差(或方差)比品种B大,故品种A的亩产稳定性较差.,大旺中学2012年高考数学一轮复习,35,【评注】本题主要考查了茎叶图和统计的基本思想方法,考查了分析样本数据,从样本数据提取基本的数字特征进行统计推断的能力和应用意识.,大旺中学2012年高考数学一轮复习,36,2.某赛季甲、乙两名篮球运动员每场比赛得分的原始记录如下:甲运动员的得分:13,51,23,8,26,38,16,33,14,28,39;乙运动员的得分:49,24,12,31,50,31,44,36,15,37,25,36,39.(1)画出甲、乙两名运动员得分数据的茎叶图;(2)根据茎叶图分析甲、乙两名运动员的水平.,大旺中学2012年高考数学一轮复习,37,(1)茎叶图如下图.甲 乙 8 0 4 6 3 1 2 5 3 6 8 2 5 4 3 8 9 3 1 1 6 6 7 9 4 4 9 1 5 0,大旺中学2012年高考数学一轮复习,38,(2)乙运动员的得分基本上是对称的,叶的分布是“单峰”的,有 的叶集中在茎2,3,4上,中位数是36.众数是31、36.甲运动员的得分除了一个特殊得分(51)外,也大致对称,也是“单峰”的,有 的叶主要集中在茎1,2,3上,中位数是26,由此看出,乙运动员的成绩更好.另外,从叶在茎上的分布情况看,乙运动员的得分更集中于峰值附近,这说明乙运动员的发挥更稳定.,大旺中学2012年高考数学一轮复习,39,1.注意三种抽样方法的比较.无论采用何种抽样方法,必须保证在整个抽样过程中每个个体被抽到的机会相等.2.在实践中应根据具体情况正确选择抽样方法.3.总体分布反映的是总体在各个范围内取值的比例情况,而这种分布一般是不知道的,所以用样本的分布估计总体分布,所以样本数据的代表性就很重要.,大旺中学2012年高考数学一轮复习,40,4.对于每个个体所取不同数值较少的总体,常用条形图表示其样本分布,而对于每个个体所取不同数值较多或无限的总体,常用频率分布直方图表示其样本分布.5.描述数据的数字特征平均数、众数、中位数、方差,其中平均数、众数、中位数描述其集中趋势,方差反映各个数据与其平均数的离散程度.,大旺中学2012年高考数学一轮复习,41,1.(2009福建卷)一个容量100的样本,其数据的分组与各组的频数如下:则样本数据落在(10,40上的频率为()A.0.13 B.0.39C.0.52 D.0.64,C,大旺中学2012年高考数学一轮复习,42,2.(2009陕西卷)某单位共有老、中、青职工430人,其中有青年职工160人,中年职工人数是老年职工人数的2倍.为了解职工身体状况,现采用分层抽样方法进行调查,在抽取的样本中有青年职工32人,则该样本中的老年职工人数为()A.9 B.18C.27 D.36,B,大旺中学2012年高考数学一轮复习,43,3.(2009广东卷)随机抽取某中学甲、乙两班各10名同学,测量他们的身高(单位:cm),获得身高数据的茎叶图如图.,大旺中学2012年高考数学一轮复习,44,(1)根据茎叶图判断哪个班的平均身高较高;(2)计算甲班的样本方差;(3)现从乙班这10名同学中随机抽取两名身高不低于173 cm的同学,求身高为176 cm的同学被抽中的概率.,大旺中学2012年高考数学一轮复习,45,(1)由茎叶图可知:甲班身高集中于160179 cm之间,而乙班身高集中于170180 cm之间,因此,乙班的平均身高高于甲班.(2)甲班的样本方差为(158-170)2+(162-170)2+(163-170)2+(168-170)2+(168-170)2+(170-170)2+(171-170)2+(179-170)2+(179-170)2+(182-170)2=57.2.,大旺中学2012年高考数学一轮复习,46,(3)设身高为176cm的同学被抽中的事件为A.从乙班10名同学中抽取两名身高不低于173cm的同学有:(181,173),(181,176),(181,178),(181,179),(179,173),(179,176),(179,178),(178,173),(178,176),(176,173),共10个基本事件.而事件A含有4个基本事件,所以,大旺中学2012年高考数学一轮复习,47,试题透析 本部分内容高考中可能以选择、填空题或解答题形式出现,要求以理解为主,主要考查抽样方法、频率分布表、频率分布直方图、条形图和茎叶图.,大旺中学2012年高考数学一轮复习,