《用样本估计总体.ppt》由会员分享,可在线阅读,更多相关《用样本估计总体.ppt(67页珍藏版)》请在三一办公上搜索。
1、,山东金榜苑文化传媒集团,步步高大一轮复习讲义,用 样 本 估 计 总 体,样本频率分布估计总体,抽签法,统计,用样本估计总体,随机抽样,简单随机抽样,系统抽样,分层抽样,变量间的关系,散点图,回归直线,独立性检验,随机数表法,共同特点:抽样过程中每个个体被抽到的概率相等.,样本数字特征估计总体,频率分布表和频率分布直方图,总体密度曲线,茎 叶 图,众数、中位数和平均数,方差、标准差,函数关系,相关关系,线性回归,线性相关系数,回归直线方程,忆 一 忆 知 识 要 点,1.频率分布直方图(1)通常我们对总体作出的估计一般分成两种,一种是用,另一种是用(2)在频率分布直方图中,纵轴表示,数据落在
2、各小组内的频率用 表示,各小长方形的面积总和等于.(3)连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.随着 的增加,作图时所分的 增加,组距减小,相应的频率分布折线图就会越来越接近于一条光滑的曲线,统计中称之为,它能够更加精细的反映出.(4)当样本数据较少时,用茎叶图表示数据的效果较好,它不但可以保留所有信息,而且可以随时记录,给数据的记录和表示都带来方便,样本的频率分布估计总体的分布,特征估计总体的数字特征,各小长方形的面积,1,样本容量,组数,总体密度曲线,总体在各个范围内取值的百分比,样本的数字,2.用样本的数字特征估计总体的数字特征(1)众数、中位数、平均数 众数:在
3、一组数据中,出现次数_的数据叫做这组数据的众数 中位数:将一组数据按大小依次排列,把处在_位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数 平均数:样本数据的算术平均数,即.在频率分布直方图中,中位数左边和右边的直方图的面积应该_,最多,最中间,相等,(2)样本方差、标准差 标准差_,其中xn是样本数据的第 n 项,n是_,是_._是反映总体波动大小的特征数,样本方差是标准 差 的 _.通常用样本方差估计总 体 方 差,当_时,样本方差很接近总体方差.,样本容量,平均数,标准差,平方,样本容量接近总体容量,A,4 0.7,5,3.2,频率分布直方图的绘制与应用,【例1】某中学高一
4、女生共有450人,为了了解高一女生的身高情况,随机抽取部分高一女生测量身高,所得数据整理后列出频率分布表如下:(1)求出表中字母m、n、M、N所对应的数值;(2)在给出的直角坐标系中画出频率分布直方图;(3)估计该校高一女生身高在149.5165.5 cm范围内有多少人?,频率分布直方图的绘制与应用,频率分布直方图的绘制与应用,用频率分布直方图解决相关问题时,应正确理解图表中各个量的意义,识图掌握信息是解决该类问题的关键.频率分布直方图有以下几个要点:(1)纵轴表示频率/组距;(2)频率分布直方图中各长方形高的比也就是其频率之比;(3)直方图中每一个矩形的面积是样本数据落在这个区间上的频率,所
5、有的小矩形的面积之和等于1,即频率之和为1.,(3)该校高一女生身高在149.5165.5 cm之间的比例为 0.120.280.200.160.76,则高一女生在此范围内的人数为4500.76342(人),从全校参加科技知识竞赛的学生试卷中抽取一个样本,考察竞赛的成绩分布将样本分成5组,绘成频率分布直方图(如图),图中从左到右各小组的小长方形的高的比是13642,最右边一组的频数是6.请结合频率分布直方图提供的信息,解答下列问题:(1)样本的容量是多少?(2)列出频率分布表;(3)成绩落在哪个范围内的人数最多?并求该小组的频数、频率;(4)估计这次竞赛中,成绩不低于60分的学生占总人数的百分
6、比,(2)由以上得频率分布表如下:,茎 叶 图 的 应 用,茎 叶 图 的 应 用,(2)将甲、乙两学生的成绩从小到大排列为:甲:512522528534536538541549554556乙:515521527531532536543548558559,解:(1)两学生成绩的茎叶图如图所示,茎 叶 图 的 应 用,(1)茎叶图的优点是保留了原始数据,便于记录及表示,能反映数据在各段上的分布情况(2)茎叶图不能直接反映总体的分布情况,这就需要通过茎叶图给出的数据求出数据的数字特征,进一步估计总体情况,乙学生成绩的平均数为,某良种培育基地正在培育一种小麦新品种A.将其与原有的一个优良品种B进行对
7、照试验两种小麦各种植了25亩,所得亩产数据(单位:千克)如下:品种A:357,359,367,368,375,388,392,399,400,405,412,414,415,421,423,423,427,430,430,434,443,445,445,451,454品种B:363,371,374,383,385,386,391,392,394,394,395,397,397,400,401,401,403,406,407,410,412,415,416,422,430.(1)作出数据的茎叶图;(2)用茎叶图处理现有的数据,有什么优点?(3)通过观察茎叶图,对品种A与B的亩产量及其稳定性进行比
8、较,写出统计结论,解:(1)如下图,(2)由于每个品种的数据都只有25个,样本不大,画茎叶图很方便;此时茎叶图不仅清晰明了地展示了数据的分布情况,便于比较,没有任何信息损失,而且还可以随时记录新的数据(3)通过观察茎叶图可以看出:品种A的亩产平均数(或均值)比品种B高;品种A的亩产标准差(或方差)比品种B大,故品种A的亩产稳定性较差,用样本的数字特征估计总体的数字特征,【例3】甲乙二人参加某体育项目训练,近期的五次测试成绩得分情况如图(1)分别求出两人得分的平均数与方差;(2)根据图和上面算得的结果,对两人的训练成绩作出评价.,解:(1)由图象可得甲、乙两人五次测试的成绩分别为 甲:10分,1
9、3分,12分,14分,16分;乙:13分,14分,12分,12分,14分,(1)平均数与方差都是重要的数字特征,是对总体的一种简明的描述,它们所反映的情况有着重要的实际意义,平均数、中位数、众数描述其集中趋势,方差和标准差描述其波动大小.(2)平均数、方差的公式推广 若数据x1,x2,xn的平均数为_,那么mx1a,mx2a,mx3a,mxna的平均数是_.数据x1,x2,xn的方差为s2.a_;b数据x1a,x2a,xna的方差也为s2;c数据ax1,ax2,axn的方差为a2s2.,甲、乙两名战士在相同条件下各射靶10次,每次命中的环数分别是:甲:8,6,7,8,6,5,9,10,4,7;
10、乙:6,7,7,8,6,7,8,7,9,5.(1)分别计算两组数据的平均数;(2)分别计算两组数据的方差;(3)根据计算结果,估计一下两名战士的射击水平谁更好一些,甲、乙两名战士在相同条件下各射靶10次,每次命中的环数分别是:甲:8,6,7,8,6,5,9,10,4,7;乙:6,7,7,8,6,7,8,7,9,5.(2)分别计算两组数据的方差;(3)根据计算结果,估计一下两名战士的射击水平谁更好一些,(5分)如图所示是某公司(共有员工300人)2011年员工年薪情况的频率分布直方图,由此可知,员工中年薪在1.4万元1.6万元之间的共有_人,72,13,统计图表中概念不清、识图不准致误,解析:由
11、所给图形可知,员工中年薪在1.4万元1.6万元之间的频率为 1(0.020.080.080.100.10)20.24,所以员工中年薪在1.4万元1.6万元之间的共有3000.2472(人),解本题容易出现的错误是审题不细,对所给图形观察不细心,认为员工中年薪在1.4万元1.6万元之间的频率为1(0.020.080.10)20.60,从而得到员工中年薪在1.4万元1.6万元之间的共有3000.60180(人)的错误答案,1.用样本频率分布来估计总体分布的重点是频率分布表和频率分布直方图的绘制及用样本频率分布估计总体分布,难点是频率分布表和频率分布直方图的理解及应用在计数和计算时一定要准确,在绘制
12、小矩形时,宽窄要一致通过频率分布表和频率分布直方图可以对总体作出估计.2.若取值x1,x2,xn的频率分别为p1,p2,pn,则其平均值为x1p1x2p2xnpn;若x1,x2,xn的平均数为_,方差为s2,则ax1b,ax2b,axnb的平均数为_,方差为a2s2.,1.不要把直方图错以为条形图,两者的区别在于条形图是离散随机变量,纵坐标刻度为频数或频率,直方图是连续随机变量,纵坐标刻度为频率/组距,这是密度连续随机变量在某一点上是没有频率的 2.几种表示频率分布的方法的优点与不足:(1)频率分布表在数量表示上比较确切,但不够直观、形象,分析数据分布的总体态势不太方便(2)频率分布直方图能够
13、很容易地表示大量数据,非常直观地表明分布的形状,使我们能够看到在分布表中看不清楚的数据模式但从直方图本身得不出原始的数据内容,也就是说,把数据表示成直方图后,原有的具体数据信息就被抹掉了(3)频率分布折线图的优点是它反映了数据的变化趋势,如果样本容量不断增大,分组的组距不断缩小,那么折线图就趋向于总体分布的密度曲线(4)用茎叶图的优点是原有信息不会被抹掉,能够展示数据的分布情况,但当样本数据较多或数据位数较多时,茎叶图就显得不太方了,作业布置,作业纸:,课时规范训练:P.1-2,预祝各位同学,2013年高考取得好成绩!,一、选择题,二、填空题,A组专项基础训练题组,三、解答题,7.某市统计局就
14、某地居民的月收入调查了10 000人,并根据所得数据画出样本的频率分布直方图(每个分组包括左端点,不包括右端点,如第一组表示收入在1 000,1 500).(1)求居民收入在3 000,3 500)的频率;(2)根据频率分布直方图算出样本数据的中位数;(3)为了分析居民的收入与年龄、职业等方面的关系,必须按月收入再从这10 000人中按分层抽样方法抽出100人作进一步分析,则月收入在2 500,3 000)的这段应抽取多少人?,解:(1)月收入在3 000,3 500)的频率为 0.000 3(3 5003 000)0.15.(2)0.000 2(1 5001 000)0.1,0.000 4(
15、2 0001 500)0.2,0.000 5(2 5002 000)0.25,0.10.20.250.550.5,样本数据的中位数为,一、选择题,二、填空题,B组专项能力提升题组,三、解答题,7.某地区100位居民的人均月用水量(单位:t)的分组及各组的频数如下:0,0.5),4;0.5,1),8;1,1.5),15;1.5,2),22;2,2.5),25;2.5,3),14;3,3.5),6;3.5,4),4;4,4.5),2.(1)列出样本的频率分布表;(2)画出频率分布直方图,并根据直方图估计这组数据的平均数、中位数、众数;(3)当地政府制定了人均月用水量为3t的标准,若超出标准加倍收费
16、,当地政府说,85%以上的居民不超过这个标准,这个解释对吗?为什么?,解:(1)频率分布表,(2)频率分布直方图如图:众数:2.25,中位数:2.02,平均数:2.02.(3)人均月用水量在3t以上的居民所占的比例 为6%4%2%12%,即大约是12%的居民月用水量在3t以上,88%的居民月用水量在3t以下,因此政府的解释是正确的,例2.(2010北京)从某小学随机抽取100名同学,将他们的身高(单位:厘米)数据绘制成频率分布直方图(如图).由图中数据可知a=_.若要从身高在120,130),130,140),140,150三组内的学生中,用分层抽样的方法选取18人参加一项活动,则从身高在14
17、0,150内的学生中选取的人数应为_.,题型二,频率分布直方图或频率分布表,0.030,3,题型二,频率分布直方图或频率分布表,【题后点评】解决该类问题时,应正确理解图表中各量的意义,通过图表掌握信息是解决该类问题的关键.频率分布指的是样本数据在各个范围内所占的比例的大小,一般用频率分布直方图反映样本的频率分布.,【阅读下列资料】根据中华人民共和国道路交通安全法规定:车辆驾驶员血液酒精度在2080 mg/100 mL(不含80)之间,属于酒后驾车,处暂扣一个月以上三个月以下驾驶证,并处200元以上500元以下罚款;血液酒精浓度在80 mg/100 mL(含80)以上时,属醉酒驾车,处十五日以下
18、拘留和暂扣三个月以上六个月以下驾驶证,并处500元以上2000元以下罚款.据法制晚报报道,2010年8月15日至8月28日,全国查处酒后驾车和醉酒驾车共28800人.,【1】如图是对这28800人酒后驾车血液中酒精含量进行检测所得结果的频率分布直方图,则属于醉酒驾车的人数约为()A.2160 B.2880 C.4320 D.8640,C,(0.01+0.005)10=0.15,,288000.15=4320人.,属于醉酒驾车的酒精含量为80 mg/100 mL及以上,【2】为了了解某校高三学生的视力情况,随机地抽查了该校100名高三学生的视力情况,得到频率分布直方图如下图,由于不慎将部分数据丢
19、失,但知道后5组频数和为62,设视力在4.6到4.8之间的学生数为a,最大频率为0.32,则a的值为(),A.64 B.54 C.48 D.27,解析:前两组中的频数为 100(0.05+0.11)=16.,后五组频数和为62,第三组为22.,又最大频率为0.32的最大频数为,B,前三组为38.,30,例3.(2010天津)甲、乙两人在10天中每天加工零件的个数用茎叶图表示如图所示,中间一列的数字表示零件个数的十位数,两边的数字表示零件个数的个位数,则这10天中甲、乙两人日加工零件的平均数分别为_和_.,题型三,茎叶图,24,23,【题后点评】(1)茎叶图的优点是保留了原始数据,便于记录及表示
20、,能反映数据在各段上的分布情况.(2)在作茎叶图或读茎叶图时,首先要弄清楚“茎”和“叶”分别代表什么.,A,将这组数据从小到大排列,得87,89,90,91,92,93,94,96.,【3】(09福建)某校开展“爱我海西、爱我家乡”摄影比赛,9位评委为参赛作品A给出的分数如茎叶图所示.记分员在去掉一个最高分和一个最低分后,算得平均分为91,复核员在复核时,发现有一个数字(茎叶图中的x)无法看清,若记分员计算无误,则数字x应该是_.,89,9 92 3 x 2 1 4,1,若最高分为90 x,则平均分为,作品A,故最低分为88,最高分为94,,解得x1.,12.(2009上海)在发生某公共卫生事
21、件期间,有专业机构认为该事件在一段时间没有发生大规模群体感染的标志为“连续10天,每天新增疑似病例不超过7人”根据过去10天甲、乙、丙、丁四地新增疑似病例数据,一定符合该标志的是()A.甲地:总体均值为3,中位数为4 B.乙地:总体均值为1,总体方差大于0 C.丙地:中位数为2,众数为3 D.丁地:总体均值为2,总体方差为3,题型四,众数、中位数、平均数、方差,由0,0,0,2,4,4,4,4,4,8可知,A错;由0,0,0,0,0,0,0,0,2,8可知,B错;由0,0,1,1,2,2,3,3,3,8可知,C错,D,【题后点评】求解选择题时要善于从题目的特点出发,灵活选用简洁、恰当的方法进行
22、求解,特值排除法是解决选择题的一种重要方法,例如本题通过列举具体的数值;一一进行检验,排除了错误选项,获得了正确答案.,题型四,众数、中位数、平均数、方差,【1】某人5次上班途中所花的时间(单位:分钟)分别为x,y,10,11,9.已知这组数据的平均数为10,方差为2,则xy的值为().,D,A.1 B.2C.3 D.4,提示:众数是最高矩形底边中点的横坐标;中位数两边的频率相等,即两边的小矩形的面积相等;平均数是频率分布直方图的“重心”,即每个小矩形的面积乘以它底边中点的横坐标,然后相加,【2】根据所给的频率分布直方图,估计该班同学数学成绩的众数是_,平均数为_.中位数_,,(1)众数为,(
23、3)左边三个小矩形面积之和为:,而左边四个小矩形面积之和为:,故中位数必然在70,80内,故中位数约为,【例1】甲、乙两位学生参加数学竞赛培训现分别从他们在培训期间参加的若干次预赛成绩中随机抽取8次,记录如下:甲:82,81,79,78,95,88,93,84乙:92,95,80,75,83,80,90,85(1)用茎叶图表示这两组数据;(2)现要从中选派一人参加数学竞赛,从统计学的角度考虑,你认为选派哪位学生参加合适?请说明理由;(3)若将频率视为概率,对甲同学今后的3次数学竞赛成绩进行预测,记这3次成绩中高于80分的次数为,求的数学期望E.,分析:(1)以十位为茎、个位为叶绘制;(2)计算
24、平均值和方差;(3)是三次独立重复试验问题,按照二项分布的概率公式进行计算,例2.,例3.,【1】(2010湖北)为了了解一个小水库中养殖的鱼的有关情况,从这个水库中多个不同位置捕捞出100条鱼,称得每条鱼的质量(单位:千克),并将所得数据分组,画出频率分布直方图(如图所示).将上面捕捞的100条鱼分别作一记号后再放回水库.几天后再从水库的多处不同位置捕捞出120条鱼,其中带有记号的鱼有6条,(1)估计数据落在1.15,1.30)中的概率约为_;,(2)估计该水库中鱼的总条数为_.,B,【3】(2010福建)将容量为n的样本中的数据分成6组,绘制频率分布直方图.若第一组至第六组数据的频率之比为
25、234641,且前三组数据的频数之和等于27,则n等于_.,所以前三组数据的频数之和为,60,由六组频率之和为1得,,各组频率依次为0.1,0.15,0.2,0.3,0.2,0.05,,【4】(07湖南)根据某水文观测点的历史统计数据,得到某条河流水位的频率分布直方图.从图中可以看出,该水文观测点平均至少一百年才遇到一次的洪水的最低水位是(),A.48米 B.49米 C.50米 D.51米,解:由频率分布直方图知水位为50米的频率/组距为1%,即水文观测点平均至少一百年才遇到一次的洪水的最低水位是50米.选C.,C,【5】(07广东)图1是某县参加2007年高考的学生身高条形统计图,从左到右的各条形表示的学生人数依次记为A1,A2,Am(如A2表示身高(单位:cm)在150,155)内的学生人数)图2是统计图1中身高在一定范围内学生人数的一个算法流程图现要统计身高在,160180cm(含160cm,不含180cm)的学生人数,那么在流程图中的判断框内应填写的条件是().,B,解题是一种实践性技能,就象游泳、滑雪、弹钢琴一样,只能通过模仿和实践来学到它!波利亚,
链接地址:https://www.31ppt.com/p-2902841.html