当前位置:首页 >> 其它课程 >>

八、统计(一)随机抽样和用样本估计总体(学生)


2016 届高三文科数学 第一轮复习系列
随机抽样和用样本估计总体(1) 主要内容: 1、简单随机抽样 2、分层抽样 3、系统抽样
一、简单随机抽样: (1)抽取方式:逐个不放回抽取; (2)每个个体被抽到的概率相等; (3)常用方法:抽签法和随机数法. [提醒]

统计(1)

简单随机抽样中易忽视样本是从总体中逐个抽

取,是不放回抽样,且每个个体

被抽到的概率相等. 1.下列抽取样本的方式是简单随机抽样的有( ①从无限多个个体中抽取 50 个个体作为样本; ②箱子里有 100 支铅笔,今从中选取 10 支进行检验.在抽样操作时,从中任意拿出一支 检测后再放回箱子里; ③从 50 个个体中一次性抽取 5 个个体作为样本. A.0 个 C.2 个 B.1 个 D.3 个 )

解析:选 A ①不满足样本的总体数较少的特点;②不满足不放回抽取的特点;③不满 足逐个抽取的特点. 2.某公司在甲、乙、丙、丁四个地区分别有 150,120,180,150 个销售点.公司为了调查 产品销售情况,需从这 600 个销售点中抽取一个容量为 100 的样本,记这项调查为①;在丙 地区有 20 个大型销售点, 要从中抽取 7 个调查其销售收入和售后服务等情况, 记这项调查为 ②,则完成①,②这两项调查宜采用的抽样方法依次是( A.分层抽样法,系统抽样法 B.分层抽样法,简单随机抽样法 C.系统抽样法,分层抽样法 D.简单随机抽样法,分层抽样法 解析:选 B 一般甲、乙、丙、丁四个地区会存在差异,采用分层抽样法较好.在丙地 区中抽取的样本个数较少,易采用简单随机抽样法. 3.(2013· 江西高考)总体由编号为 01,02,?,19,20 的 20 个个体组成.利用下面的随机 数表选取 5 个个体,选取方法是从随机数表第 1 行的第 5 列和第 6 列数字开始由左到右依次 选取两个数字,则选出来的第 5 个个体的编号为( ) )

7816 6572 0802 6314 0702 4369 9728 0198
1

3204 9234 4935 8200 3623 4869 6938 7481

A.08 C.02

B.07 D.01

解析: 选 D 从随机数表第 1 行的第 5 列和第 6 列数字开始由左到右依次选取两个数字, 则选出的数字为 08,02,14,07,01,?,故选出的第 5 个个体的编号为 01.

二、系统抽样的步骤 假设要从容量为 N 的总体中抽取容量为 n 的样本. (1)先将总体的 N 个个体编号; N N (2)确定分段间隔 k,对编号进行分段.当 (n 是样本容量)是整数时,取 k= ; n n (3)在第 1 段用简单随机抽样确定第一个个体编号 l(l≤k); (4)按照一定的规则抽取样本.通常是将 l 加上间隔 k 得到第 2 个个体编号 l+k,再加 k 得到第 3 个个体编号 l+2k,依次进行下去,直到获取整个样本. N [提醒] 系统抽样中,易忽视抽取的样本数也就是分段的段数,当 不是整数时,注意剔 n 除,剔除的个体是随机的,各段入样的个体编号成等差数列. 1、 (2014· 广东高考)为了解 1 000 名学生的学习情况,采用系统抽样的方法,从中抽取 容量为 40 的样本,则分段的间隔为( A.50 C.25 ) B.40 D.20

1 000 解析:由 =25,可得分段的间隔为 25.故选 C. 40 答案:C 解决系统抽样问题的两个关键步骤 (1)分组的方法应依据抽取比例而定,即根据定义每组抽取一个样本. (2)起始编号的确定应用简单随机抽样的方法,一旦起始编号确定,其他编号便随之确定 了. 2、已知某单位有 40 名职工,现要从中抽取 5 名职工,将全体职工随机按 1~40 编号, 并按编号顺序平均分成 5 组.按系统抽样方法在各组内抽取一个号码.

5 6 7 8

9 2 0 1
2

3

(1)若第 1 组抽出的号码为 2,则所有被抽出职工的号码为_________________________; (2)分别统计这 5 名职工的体重(单位:千克),获得体重数据的茎叶图如图所示,则该样 本的方差为________. 解析:(1)由题意知被抽出职工的号码为 2,10,18,26,34. (2)由茎叶图知 5 名职工体重的平均数 x= 59+62+70+73+81 =69, 5

1 则该样本的方差 s2= ×[(59-69)2+(62-69)2+(70-69)2+(73-69)2+(81-69)2]=62. 5 答案:(1)2,10,18,26,34 (2)62

三、分层抽样 (1)定义:在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽 取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样. (2)分层抽样的应用范围: 当总体是由差异明显的几个部分组成时,往往选用分层抽样. 样本容量n [提醒] 分层抽样中,易忽视每层抽取的个体的比例是相同的,即 . 总体个数N

1. (2014· 广东高考)已知某地区中小学生人数和近视情况分别如图 1 和图 2 所示. 为了解 该地区中小学生的近视形成原因,用分层抽样的方法抽取 2%的学生进行调查,则样本容量 和抽取的高中生近视人数分别为( )

A.100,10 C.100,20

B.200,10 D.200,20

解析:选 D 易知(3 500+4 500+2 000)×2%=200,即样本容量;抽取的高中生人数为 2 000×2%=40,由于其近视率为 50%,所以近视的人数为 40×50%=20. 2.某公司有一批专业技术人员,对他们进行年龄状况和接受教育程度(学历)的调查,其 结果(人数分布)如下表:

3

学历 本科 研究生

35 岁以下 80 x

35~50 岁 30 20

50 岁以上 20 y

(1)用分层抽样的方法在 35~50 岁年龄段的专业技术人员中抽取一个容量为 5 的样本, 将该样本看成一个总体,从中任取 2 人,求至少有 1 人学历为研究生的概率; (2)在这个公司的专业技术人员中按年龄状况用分层抽样的方法抽取 N 个人,其中 35 岁 以下 48 人,50 岁以上 10 人,再从这 N 个人中随机抽取 1 人,此人的年龄为 50 岁以上的概 5 率为 ,求 x,y 的值. 39 解:(1)用分层抽样的方法在 35~50 岁年龄段的专业技术人员中抽取一个容量为 5 的样 30 m 本,设抽取学历为本科的人数为 m,∴ = ,解得 m=3. 50 5 抽取的样本中有研究生 2 人,本科生 3 人,分别记作 S1,S2;B1,B2,B3. 从中任取 2 人的所有等可能基本事件共有 10 个:(S1,B1),(S1,B2),(S1,B3),(S2,B1), (S2,B2),(S2,B3),(S1,S2),(B1,B2),(B1,B3),(B2,B3), 其中至少有 1 人的学历为研究生的基本事件有 7 个:(S1,B1),(S1,B2),(S1,B3),(S2, B1),(S2,B2),(S2,B3),(S1,S2). ∴从中任取 2 人,至少有 1 人学历为研究生的概率为 10 5 (2)由题意,得 = ,解得 N=78. N 39 ∴35~50 岁中被抽取的人数为 78-48-10=20, ∴ 48 20 10 = = ,解得 x=40,y=5. 80+x 50 20+y 7 . 10

即 x,y 的值分别为 40,5. [类题通法] 进行分层抽样的相关计算时,常利用以下关系式巧解: 样本容量n 该层抽取的个体数 (1) = ; 总体的个数N 该层的个体数 (2)总体中某两层的个体数之比等于样本中这两层抽取的个体数之比.

课后练习: 一、选择题 1.(2014· 湖南高考)对一个容量为 N 的总体抽取容量为 n 的样本,当选取简单随机抽样、 系统抽样和分层抽样三种不同方法抽取样本时, 总体中每个个体被抽中的概率分别为 p1、 p2、
4

p3,则(

) B.p2=p3<p1 D.p1=p2=p3

A.p1=p2<p3 C.p1=p3<p2

解析:选 D 根据抽样方法的概念可知,简单随机抽样、系统抽样和分层抽样三种抽样 n 方法,每个个体被抽到的概率都是 ,故 p1=p2=p3,故选 D. N 2.某学校有男、女学生各 500 名.为了解男、女学生在学习兴趣与业余爱好方面是否存 在显著差异,拟从全体学生中抽取 100 名学生进行调查,则宜采用的抽样方法是( A.抽签法 C.系统抽样法 B.随机数法 D.分层抽样法 )

解析: 选 D 从全体学生中抽取 100 名应用分层抽样法, 按男、 女学生所占的比例抽取. 故 选 D. 3.(2015· 东北三校联考)某工厂生产甲、乙、丙三种型号的产品,产品数量之比为 3∶5∶ 7,现用分层抽样的方法抽出容量为 n 的样本,其中甲种产品有 18 件,则样本容量 n=( A.54 C.45 解析:选 B 依题意得 B.90 D.126 3 ×n=18,解得 n=90,即样本容量为 90. 3+5+7 )

4.某中学采用系统抽样方法,从该校高一年级全体 800 名学生中抽 50 名学生做牙齿健 康检查.现将 800 名学生从 1 到 800 进行编号.已知从 33~48 这 16 个数中取的数是 39,则 在第 1 小组 1~16 中随机抽到的数是( A.5 C.11 ) B.7 D.13

800 解析:选 B 间隔数 k= =16,即每 16 人抽取一个人.由于 39=2×16+7,所以第 50 1 小组中抽取的数为 7. 5.某班级有男生 20 人,女生 30 人,从中抽取 10 人作为样本,恰好抽到了 4 个男生、6 个女生,则下列命题正确的是( )

A.该抽样可能是简单随机抽样 B.该抽样一定不是系统抽样 C.该抽样中女生被抽到的概率大于男生被抽到的概率 D.该抽样中女生被抽到的概率小于男生被抽到的概率 解析: 选 A 本题看似是一道分层抽样的题, 实际上每种抽样方法都可能出现这个结果, 故 B 不正确.根据抽样的等概率性知 C,D 不正确. 6.福利彩票“双色球”中红色球的号码由编号为 01,02,?,33 的 33 个个体组成,某

5

彩民利用下面的随机数表选取 6 组数作为 6 个红色球的编号,选取方法是从随机数表第 1 行 的第 6 列和第 7 列数字开始由左到右依次选取两个数字,则选出来的第 6 个红色球的编号为 ( ) 49 54 43 54 82 17 37 93 23 78 87 35 20 96 43 84 26 34 91 64 57 24 55 06 88 77 04 74 47 67 21 76 33 50 25 83 92 12 06 76 A.23 C.02 B.09 D.17

解析: 选 C 从随机数表第 1 行的第 6 列和第 7 列数字开始由左到右依次选取两个数字, 则选出的 6 个红色球的编号依次为 21,32,09,16,17,02,故选出的第 6 个红色球的编号为 02. 二、填空题 7. (2014· 天津高考)某大学为了解在校本科生对参加某项社会实践活动的意向, 拟采用分 层抽样的方法,从该校四个年级的本科生中抽取一个容量为 300 的样本进行调查.已知该校 一年级、二年级、三年级、四年级的本科生人数之比为 4∶5∶5∶6,则应从一年级本科生中 抽取________名学生. 解析:设应从一年级本科生中抽取 x 名学生, 则 x 4 = ,解得 x=60. 300 4+5+5+6

答案:60 8.(2014· 湖北高考)甲、乙两套设备生产的同类型产品共 4 800 件,采用分层抽样的方法 从中抽取一个容量为 80 的样本进行质量检测.若样本中有 50 件产品由甲设备生产,则乙设 备生产的产品总数为________件. 解析:分层抽样中各层的抽样比相同.样本中甲设备生产的有 50 件,则乙设备生产的有 30 件.在 4 800 件产品中,甲、乙设备生产的产品总数比为 5∶3,所以乙设备生产的产品的 总数为 1 800 件. 答案:1 800 9.某班运动队由足球运动员 18 人、篮球运动员 12 人、乒乓球运动员 6 人组成(每人只 参加一项),现从这些运动员中抽取一个容量为 n 的样本,若分别采用系统抽样法和分层抽样 法,则都不用剔除个体;当样本容量为 n+1 时,若采用系统抽样法,则需要剔除 1 个个体, 那么样本容量 n 为________. 解析:总体容量为 6+12+18=36.当样本容量为 n 时,由题意可知,系统抽样的抽样距 36 n n n 为 ,分层抽样的抽样比是 ,则采用分层抽样法抽取的乒乓球运动员人数为 6× = ,篮 n 36 36 6 n n n n 球运动员人数为 12× = ,足球运动员人数为 18× = ,可知 n 应是 6 的倍数,36 的约 36 3 36 2 数,故 n=6,12,18.当样本容量为 n+1 时,剔除 1 个个体,此时总体容量为 35,系统抽样的

6

35 35 抽样距为 ,因为 必须是整数,所以 n 只能取 6,即样本容量 n 为 6. n+1 n+1 答案:6 10.(2015· 北京海淀区期末)某企业三个分厂生产同一种电子产品,三个分厂产量分布如 图所示,现在用分层抽样方法从三个分厂生产的该产品中共抽取 100 件做使用寿命的测试, 则第一分厂应抽取的件数为________;由所得样品的测试结果计算出一、二、三分厂取出的 产品的使用寿命平均值分别为 1 020 小时、980 小时、1 030 小时,估计这个企业所生产的该 产品的平均使用寿命为________小时.

解析:第一分厂应抽取的件数为 100×50%=50;该产品的平均使用寿命为 1 020×0.5 +980×0.2+1 030×0.3=1 015. 答案:50 1 015 三、解答题 11.用分层抽样法从高中三个年级的相关人员中抽取若干人组成研究小组,有关数据见 下表: 年级 高一 高二 高三 相关人数 99 27 18 抽取人数 x y 2

(1)求 x,y 的值; (2)若从高二、高三年级抽取的人中选 2 人,求这 2 人都来自高二年级的概率. x y 2 解:(1)由题意可得 = = ,所以 x=11,y=3. 99 27 18 (2)记从高二年级抽取的 3 人为 b1,b2,b3,从高三年级抽取的 2 人为 c1,c2,则从这两 个年级抽取的 5 人中选 2 人的所有等可能基本事件共有 10 个:(b1,b2),(b1,b3),(b1,c1), (b1,c2),(b2,b3),(b2,c1),(b2,c2),(b3,c1),(b3,c2),(c1,c2),设所选的 2 人都来自高 3 二年级为事件 A,则 A 包含的基本事件有 3 个:(b1,b2),(b1,b3),(b2,b3).则 P(A)= = 10 0.3,故所选的 2 人都来自高二年级的概率为 0.3. 12.一次数学模拟考试,共 12 道选择题,每题 5 分,共计 60 分,每道题有四个可供选 择的答案,仅有一个是正确的.学生小张只能确定其中 10 道题的正确答案,其余 2 道题完全
7

靠猜测回答. 小张所在班级共有 40 人,此次考试选择题得分情况统计表如下: 得分(分) 百分率 40 15% 45 10% 50 25% 55 40% 60 10%

现采用分层抽样的方法从此班抽取 20 人的试卷进行选择题质量分析. (1)应抽取多少张选择题得 60 分的试卷? (2)若小张选择题得 60 分,求他的试卷被抽到的概率. 解:(1)得 60 分的人数为 40×10%=4. 20 x 设抽取 x 张选择题得 60 分的试卷,则 = , 40 4 则 x=2,故应抽取 2 张选择题得 60 分的试卷. (2)设小张的试卷为 a1,另三名得 60 分的同学的试卷为 a2,a3,a4,所有抽取 60 分试卷 的方法为:(a1,a2),(a1,a3),(a1,a4),(a2,a3),(a2,a4),(a3,a4)共 6 种,其中小张的试 3 1 卷被抽到的抽法共有 3 种,故小张的试卷被抽到的概率为 P= = . 6 2

第三节

用样本估计总体

对应学生用书 P153

基础盘查一 频率分布直方图 (一)循纲忆知 1.了解分布的意义和作用,会列频率分布表,会画频率分布直方图、频率分布折线图, 体会他们各自的特点. 2.会用样本的频率分布估计总体分布. (二)小题查验 1.判断正误 (1)在频率分布直方图中,小矩形的高表示频率( (2)频率分布直方图中各个长方形的面积之和为 1( 答案:(1)× (2)√ 2.(人教 A 版教材习题改编)如图是 100 位居民月均用水量的频率分布直方图,则月均用 水量为[2,2.5)范围内的居民数有________人. ) )

8

答案:25 3. 一个容量为 200 的样本的频率分布直方图如图所示, 则样本数据落在[5,9)内的频率和 频数分别为______________.

解析: 由频率分布直方图可得样本数据落在 [5,9) 内的频率为 0.05×4 = 0.2 ,频数为 0.2×200=40. 答案:0.2,40 基础盘查二 茎叶图 (一)循纲忆知 会画茎叶图,理解茎叶图的特点,并且会用茎叶图估计总体分布. (二)小题查验 1.判断正误 (1)茎叶图一般左侧的叶按从大到小的顺序写,右侧的叶按从小到大的顺序写,相同的数 据可以只记一次( ) )

(2)茎叶图只适用数据为两位数字( 答案:(1)× (2)×

2.(人教 A 版教材习题改编)某赛季甲、乙两名篮球运动员每场比赛得分记录用茎叶图表 示,从茎叶图的分布情况看,______运动员的发挥更稳定.





9

8 6 8 9 4 3 6 3 8 3 1 答案:乙

0 1 2 3 4 5

2 4 1 4 0

5 5 1 6 9 6 7 9

3.(2015· 武汉调研)将某选手的 9 个得分去掉 1 个最高分, 去掉 1 个最低分, 7 个剩余分数 的平均分为 91.现场作的 9 个分数的茎叶图后来有 1 个数据模糊, 无法辨认, 在图中以 x 表示, 则 7 个剩余分数的方差为________.

8 9

7 7 4 0 1 0 x 9 1

解析:由题图可知去掉的两个数是 87,99,所以 87+90×2+91×2+94+90+x=91×7, 解得 x=4. 1 36 所以 s2= ×[(87-91)2+(90-91)2× 2+(91-91)2× 2+(94-91)2× 2]= . 7 7 36 答案: 7 基础盘查三 样本的数字特征 (一)循纲忆知 1.理解样本数据标准差的意义和作用,会计算数据标准差. 2.能从样本数据中提取基本的数字特征(如平均数、标准差),并作出合理的解释. 3.会用样本的基本数字特征估计总体的基本数字特征,理解样本估计总体的思想. 4.会用随机抽样的基本方法和样本估计总体的思想解决一些简单的实际问题. (二)小题查验 1.判断正误 (1)在频率分布直方图中,最高的小长方形底边中点的横坐标是众数( ) )

(2)在频率分布直方图中,众数左边和右边的小长方形的面积和是相等的( (3)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势( (4)一组数据的方差越大,说明这组数据的波动越大( 答案:(1)√ (2)× (3)√ (4)√ ) )

2.(人教 A 版教材习题改编)两位射击运动员在一次射击测试中各射靶 10 次,每次命中 的环数如下: 甲:7 8 7 9 5 4 9 10 7 4
10

乙:9 5 7

8 7 6 8 6 7 7

由此估计________的射击成绩更稳定. 答案:乙 3.(2015· 南京一模)若一组样本数据 2,3,7,8,a 的平均数为 5,则该组数据的方差 s2= ________. 2+3+7+8+a 解析:∵ =5,∴a=5. 5 1 26 ∴s2= [(2-5)2+(3-5)2+(7-5)2+(8-5)2+(5-5)2]= 5 5 26 答案: 5 对应学生用书 P154

考点一 频率分布直方图|(基础送分型考点——自主练透) [必备知识] 1.作频率分布直方图的步骤 (1)求极差(即一组数据中最大值与最小值的差); (2)决定组距与组数; (3)将数据分组; (4)列频率分布表; (5)画频率分布直方图. 2.频率分布直方图的性质 (1)小长方形的面积=组距× 频率 =频率. 组距

(2)各小长方形的面积之和等于 1. 频率 1 (3)小长方形的高= ,所有小长方形的高的和为 . 组距 组距 [提醒] 利用频率分布直方图求众数、 中位数与平均数时, 易出错, 应注意区分这三者. 在 频率分布直方图中: (1)最高的小长方形底边中点的横坐标即是众数; (2)中位数左边和右边的小长方形的面积和是相等的; (3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘 以小长方形底边中点的横坐标之和. [题组练透] 1.(2015· 湖北黄冈月考)从某小学随机抽取 100 名同学,将他们的身高(单位:厘米)数据
11

绘制成频率分布直方图(如图).若要从身高在[120,130),[130,140),[140,150]三组内的学生 中,用分层抽样的方法选取 18 人参加一项活动,则从身高在[140,150]内的学生中选取的人 数应为( )

A.2 C.4

B.3 D.5

解析:选 B 依题意可得 10×(0.005+0.01+0.02+a+0.035)=1,则 a=0.03. 所以身高在[120,130),[130,140),[140,150]三组内的学生比例为 3∶2∶1. 所以从身高在[140,150]内的学生中选取的人数应为 3. 2.(2015· 河南三市调研)在检验某产品直径尺寸的过程中,将某尺寸分成若干组,[a,b) 是其中的一组,抽查出的个体数在该组上的频率为 m,该组在频率分布直方图上的高为 h, 则|a-b|等于( m A. h C.mh ) h B. m D.与 h,m 无关

m 解析:选 A 根据概率分布直方图的概念可知,|a-b|×h=m,由此可知|a-b|= . h 3.某地政府调查了工薪阶层 1 000 人的月工资收入,并根据调查结果画出如图所示的频 率分布直方图,为了了解工薪阶层对月工资收入的满意程度,要用分层抽样的方法从调查的 1 000 人中抽出 100 人做电话询访,则(30,35](百元)月工资收入段应抽出________人.

解析: 月工资收入落在(30,35](百元)内的频率为 1-(0.02+0.04+0.05+0.05+0.01)×5= 1-0.85=0.15,则 0.15÷ 5=0.03,所以各组的频率比为 0.02∶0.04∶0.05∶0.05∶0.03∶0.01 3 =2∶4∶5∶5∶3∶1,所以(30,35](百元)月工资收入段应抽出 ×100=15(人). 20 答案:15 [类题通法] 1.绘制频率分布直方图时需注意:
12

(1)制作好频率分布表后,可以利用各组的频率之和是否为 1 来检验该表是否正确; 频率 (2)频率分布直方图的纵坐标是 ,而不是频率. 组距 2.由频率分布直方图进行相关计算时,需掌握下列关系式: 频率 (1) ×组距=频率. 组距 频数 频数 (3) =频率,此关系式的变形为 =样本容量,样本容量×频率=频数. 样本容量 频率 考点二 茎叶图|(重点保分型考点——师生共研) [必备知识] 茎是指中间的一列数,叶是从茎的旁边生长出来的数. 在样本数据较少时,用茎叶图表示数据的效果较好. [提醒] 茎叶图的绘制需注意: (1)“叶”的位臵只有一个数字,而“茎”的位臵的数字位数一般不需要统一; (2)重复出现的数据要重复记录,不能遗漏,特别是“叶”的位臵上的数据. [典题例析] 某学校随机抽取 20 个班, 调查各班中有网上购物经历的人数, 所得数据的茎叶图如图所 示,以组距为 5 将数据分组成[0,5),[5,10),…,[30,35),[35,40]时,所作的频率分布直方图 是( )

0 1 2 3

7 3 7 6 4 7 5 5 8 5 4 4 3 0 4 3 2 0 3 0

解析:选 A 由分组可知 C,D 一定不对;由茎叶图可知[0,5)有 1 人,[5,10)有 1 人,∴
13

第一、二小组频率相同,频率分布直方图中矩形的高应相等,可排除 B. [类题通法] 在使用茎叶图时,一定要观察所有的样本数据,弄清楚这个图中数字的特点,不要漏掉 了数据,也不要混淆茎叶图中茎与叶的含义. [演练冲关] (2015· 广州调研)如图是 2014 年某大学自主招生面试环节中, 七位评委为某考生打出的分 数的茎叶统计图,去掉一个最高分和一个最低分后,所剩数据的平均数和众数依次为( A.85,84 C.86,84 B.84,85 D.84,86 )

7 8 9

9 4 3 4 6 4 7

解析:选 A 由图可知,去掉一个最高分和一个最低分后,所剩数据为 84,84,84,86,87. 84+84+84+86+87 ∴平均数为 =85,众数为 84. 5 考点三 样本的数字特征|(常考常新型考点——多角探明) [必备知识] 1.方差和标准差 方差和标准差反映了数据波动程度的大小. 1 方差:s2= [(x1- x )2+(x2- x )2+?+(xn- x )2], n 标准差: s= 1 [?x - x ?2+?x2- x ?2+?+?xn- x ?2]. n 1

2.众数:出现次数最多的数据; 中位数:将数据按大小依次排列,处在最中间位置的一个数据(或最中间两个数据的平均 数); 平均数:样本数据的算术平均数. [多角探明] 在考查中,样本的数字特征常与频率分布直方图、茎叶图等知识交汇命题.常见的命题 角度有: (1)样本的数字特征与直方图交汇; (2)样本的数字特征与茎叶图交汇; (3)样本的数字特征与优化决策问题.
14

角度一:样本的数字特征与直方图交汇 1.(2015· 武汉调研)甲、乙两人在一次射击比赛中各射靶 5 次,两人成绩的条形统计图如 图所示,则( )

A.甲的成绩的平均数小于乙的成绩的平均数 B.甲的成绩的中位数等于乙的成绩的中位数 C.甲的成绩的方差小于乙的成绩的方差 D.甲的成绩的极差小于乙的成绩的极差 解析: 选 C 甲的平均数是 4+5+6+7+8 = 6 ,中位数是 6 ,极差 是 4 ,方差 是 5

?-2?2+?-1?2+02+12+22 5+5+5+6+9 =2;乙的平均数是 =6,中位数是 5,极差是 4,方 5 5 ?-1?2+?-1?2+?-1?2+02+32 12 差是 = ,故选 C. 5 5

角度二:样本的数字特征与茎叶图交汇 2.(2015· 潍坊联考)某学校从高二甲、乙两个班中各选 6 名同学参加数学竞赛,他们取得 的成绩(满分 100 分)的茎叶图如图,其中甲班学生成绩的众数是 85,乙班学生成绩的平均分 为 81,则 x+y 的值为( ) 甲 9 7 5 0 x 1 A.6 C.8 7 8 9 8 1 2 y 1 0 乙

B.7 D.9 78+70+y+81+81+80+92 6

解析: 选 D 由众数的定义知 x=5, 由乙班的平均分为 81 得 =81,解得 y=4,故 x+y=9. 角度三:样本的数字特征与优化决策问题

3.(2015· 哈尔滨四校统考)甲、乙、丙、丁四人参加某运动会射击项目选拔赛,四人的平 均成绩和方差如下表所示: 甲 乙 丙 丁

15

平均环数 x 方差 s2

8.3 3.5

8.8 3.6

8.8 2.2

8.7 5.4 )

从这四个人中选择一人参加该运动会射击项目比赛,最佳人选是( A.甲 C.丙 B.乙 D.丁

解析:选 C 由题目表格中数据可知,丙平均环数最高,且方差最小,说明技术稳定, 且成绩好,选 C. [类题通法] 1.用样本估计总体时,样本的平均数、标准差只是总体的平均数、标准差的近似.实际 应用中,需先计算数据的平均数,分析平均水平,再计算方差(标准差)分析稳定情况. 2.若给出图形,一方面可以由图形得到相应的样本数据,再计算平均数、方差(标准差); 另一方面,可以从图形直观分析样本数据的分布情况,大致判断平均数的范围,并利用数据 的波动性大小比较方差(标准差)的大小.

对应 B 本课时跟踪检测(六十)

一、选择题 1.(2015· 辽宁五校联考)对于一组数据 xi(i=1,2,3,?,n),如果将它们改变为 xi+C(i= 1,2,3,?,n),其中 C≠0,则下列结论正确的是( A.平均数与方差均不变 B.平均数变,方差保持不变 C.平均数不变,方差变 D.平均数与方差均发生变化 解析:选 B 由平均数的定义,可知每个个体增加 C,则平均数也增加 C,方差不变, 故选 B. 2.某校 100 名学生期中考试数学成绩的频率分布直方图如 图所示, 其中成绩分组区间是: [50,60), [60,70), [70,80), [80,90), [90,100],则图中 a 的值为( A.0.006 C.0.004 5 解析:选 B 0.005. 3.如图是Ⅰ,Ⅱ两组各 7 名同学体重(单位:kg)数据的茎叶图.设Ⅰ,Ⅱ两组数据的平
16

)

) B.0.005 D.0.002 5

由题意知,a=

1-?0.02+0.03+0.04?×10 = 2×10

均数依次为 x 1 和 x 2,标准差依次为 s1 和 s2,那么( Ⅰ组 3 6 7 0 A. x 1> x 2,s1>s2 C. x 1< x 2,s1>s2 8 1 2 5 6 7 4 0 2

) Ⅱ组 6 8 1 3

B. x 1> x 2,s1<s2 D. x 1< x 2,s1<s2 316 ,s2= 7 342 ,故选 D. 7

解析:选 D 由题中茎叶图可得 x 1=61, x 2=62,s1= 4.(2015· 沈阳质量检测)某大学对 1 000 名学生的自主招 生水平测试成绩进行统计,得到样本频率分布直方图(如图), 则这 1 000 名学生在该次自主招生水平测试中成绩不低于 70 分的学生数是( A.300 C.500 ) B.400 D.600

解析:选 D 依题意得,题中的 1 000 名学生在该次自主招生水平测试中成绩不低于 70 分的学生数是 1 000×(0.035+0.015+0.010)×10=600,选 D. 5.(2015· 郑州第一次质量预测)PM2.5 是指大气中直径 小于或等于 2.5 微米的颗粒物,也称为可入肺颗粒物.如 图是根据某地某日早 7 点到晚 8 点甲、 乙两个 PM2.5 监测 点统计的数据(单位:毫克/立方米)列出的茎叶图,则甲、 乙两地浓度的方差较小的是( A.甲 C.甲、乙相等 ) B.乙 D.无法确定 甲 2 93 621 331 64 7 0.04 0.05 0.06 0.07 0.08 0.09 乙 1236 9 29 9 7 246

解析:选 A 从茎叶图上可以观察到:甲监测点的样本数据比乙监测点的样本数据更加 集中,因此甲地浓度的方差较小. 6. 如图是依据某城市年龄在 20 岁到 45 岁的居民上网情况调查而绘制的频率分布直方图, 现已知年龄在[30,35), [35,40) ,[40,45] 的上网人数呈递减的等差数列分布,则网民年龄在 [35,40)的频率为( )

A.0.04

B.0.06
17

C.0.2 解析:选 C

D.0.3 由已知得网民年龄在[20,25)的频率为 0.01× 5=0.05,在[25,30) 的频率为

0.07× 5=0.35.因为年龄在[30,35),[35,40),[40,45]的上网人数呈递减的等差数列分布,所以 其频率也呈递减的等差数列分布, 又年龄在[30,45]的频率为 1-0.05-0.35=0.6, 所以年龄在 [35,40)的频率为 0.2.故选 C. 二、填空题 7.(2014· 江苏高考)为了了解一片经济林的生长情况,随机抽测了其中 60 株树木的底部 周长(单位:cm),所得数据均在区间[80,130]上,其频率分布直方图如图所示,则在抽测的 60 株树木中,有________株树木的底部周长小于 100 cm.

解析:由频率分布直方图可得树木底部周长小于 100 cm 的频率是(0.025+0.015)×10= 0.4,又样本容量是 60,所以频数是 0.4×60=24. 答案:24 8.下图茎叶图是甲、乙两人在 5 次综合测评中的成绩,其中一个数字被污损,则甲的平 均成绩超过乙的平均成绩的概率为________. 甲 9 2 8 8 9 3 ● 乙 3 7 9

1 0

解析:由图可知,甲的 5 次成绩分别是 88,89,90,91,92,易知甲的平均分为 90.乙的成绩 分别是 83,83,87,99,其中被污损的成绩为 90 到 99 中的某一个.设被污损的那次成绩为 x, 83+83+87+x+99 由甲的平均成绩超过乙的平均成绩,得 <90.所以 x<98.又 x 是 90 到 99 5 8 4 的十个整数中的其中一个,其中有 8 个整数小于 98,所以 x<98 的概率为 = . 10 5 4 答案: 5 9.(2015· 南昌一模)在一次演讲比赛中,6 位评委对一名选手打分的茎叶图如图所示,若 去掉一个最高分和一个最低分,得到一组数据 xi(1≤i≤4),在如图所示的程序框图中, x 是 这 4 个数据的平均数,则输出的 v 的值为________.

18

7 8 9

7 0 1

8 2 4

解析: 根据题意得到的数据为 78,80,82,84, 则 x =81.该程序框图的功能是求以上数据的 方差,故输出的 v 的值为 ?78-81?2+?80-81?2+?82-81?2+?84-81?2 =5. 4 答案:5 10.(2015· 武汉调研)为组织好“市九运会”,组委会征集了 800 名志愿者,现对他们的 年龄抽样统计后,得到如图所示的频率分布直方图,但是年龄在[25,30)内的数据不慎丢失, 依据此图可得:

(1)年龄在[25,30)内对应小长方形的高度为________; (2)这 800 名志愿者中年龄在[25,35)内的人数为________. 解析:(1)因为各个小长方形的面积之和为 1,所以年龄在[25,30)内对应小长方形的高度 1 为 [1-(5× 0.01+5× 0.07+5× 0.06+5× 0.02)]=0.04. 5 (2)年龄在[25,35)内的频率为 0.04×5+0.07×5=0.55,人数为 0.55×800=440. 答案:(1)0.04 (2)440 三、解答题 11.(2015· 合肥质检)某电视台举办青年歌手大奖赛,有十名评委打分,已知甲、乙两名 选手演唱后的得分如茎叶图所示: 甲 6 4 3 8 7 7 5 4 2 9 9 8 7 1 0 5 1 3 6 6 8 8 9 乙

19

(1)从统计的角度,你认为甲与乙比较,演唱水平怎样? (2)现场有三名点评嘉宾 A、B、C,每位选手可以从中选两位进行指导,若选手选每位点 评嘉宾的可能性相等,求甲、乙两选手选择的点评嘉宾恰有一人重复的概率. 解:(1)由茎叶图可得: x 甲=87.5, x 乙=86.7, x 甲> x 乙,所以甲演唱水平更高一点, 但甲的方差较大,即评委对甲的水平认可存在较大的差异. (2)依题意,共有 9 个基本事件:

6 其中,甲、乙两选手选择的点评嘉宾恰重复一人包含 6 个基本事件.所以所求概率为 = 9 2 . 3 12.(2015· 广州调研)某单位 N 名员工参加“社区低碳你我 他”活动.他们的年龄在 25 岁至 50 岁之间.按年龄分组:第 1 组[25,30),第 2 组[30,35),第 3 组[35,40),第 4 组[40,45), 第 5 组[45,50],得到的频率分布直方图如图所示.下表是年龄 的频率分布表. 区间 人数 [25,30) 25 [30,35) a [35,40) b [40,45) [45,50]

(1)求正整数 a,b,N 的值; (2)现要从年龄较小的第 1,2,3 组中用分层抽样的方法抽取 6 人,则年龄在第 1,2,3 组的人 数分别是多少? (3)在(2)的条件下,从这 6 人中随机抽取 2 人参加社区宣传交流活动,求恰有 1 人在第 3 组的概率. 解:(1)由频率分布直方图可知,[25,30)与[30,35)两组的人数相同,所以 a=25. 0.08 且 b=25× =100. 0.02 25 总人数 N= =250. 0.02×5 (2)因为第 1,2,3 组共有 25+25+100=150 人,利用分层抽样在 150 名员工中抽取 6 人,
20

每组抽取的人数分别为: 25 第 1 组的人数为 6× =1, 150 25 第 2 组的人数为 6× =1, 150 100 第 3 组的人数为 6× =4, 150 所以第 1,2,3 组分别抽取 1 人,1 人,4 人. (3)由(2)可设第 1 组的 1 人为 A,第 2 组的 1 人为 B,第 3 组的 4 人分别为 C1,C2,C3, C4,则从 6 人中抽取 2 人的所有可能结果为: (A,B),(A,C1),(A,C2),(A,C3),(A,C4),(B,C1),(B,C2),(B,C3),(B,C4), (C1,C2),(C1,C3),(C1,C4),(C2,C3),(C2,C4),(C3,C4),共有 15 种. 其中恰有 1 人年龄在第 3 组的所有结果为:(A,C1),(A,C2),(A,C3),(A,C4),(B, C1),(B,C2),(B,C3),(B,C4),共有 8 种. 8 所以恰有 1 人年龄在第 3 组的概率为 . 15 [B 卷——增分提能]

1.(2015· 广东七校联考)甲、乙两位学生参加数学竞赛培训,在培训期间,他们参加的 5 次预赛成绩记录如下: 甲 乙 82 82 79 95 87 95 75 80 90 85

(1)用茎叶图表示这两组数据; (2)从甲、乙两人的成绩中各随机抽取一个,求甲的成绩比乙高的概率; (3)①求甲、乙两人的成绩的平均数与方差; ②若现要从中选派一人参加数学竞赛,根据你的计算结果,你认为选派哪位学生参加合 适? 解:(1)作出茎叶图如下: 甲 9 7 2 2 5 7 8 9 5 0 0 5 5 乙

(2)记甲被抽到的成绩为 x,乙被抽到的成绩为 y,用数对(x,y)表示基本事件: (82,95),(82,75),(82,80),(82,90),(82,85), (82,95),(82,75),(82,80),(82,90),(82,85),

21

(79,95),(79,75),(79,80),(79,90),(79,85), (95,95),(95,75),(95,80),(95,90),(95,85), (87,95),(87,75),(87,80),(87,90),(87,85), 基本事件总数 n=25. 记“甲的成绩比乙高”为事件 A,事件 A 包含基本事件: (82,75),(82,80),(82,75),(82,80),(79,75),(95,75), (95,80),(95,90),(95,85),(87,75),(87,80),(87,85), m 12 事件 A 包含的基本事件数 m=12,所以 P(A)= = , n 25 12 所以甲的成绩比乙高的概率为 . 25 1 (3)① x 甲= (70×1+80×3+90×1+9+2+2+7+5)=85, 5 1 x 乙= (70×1+80×2+90×2+5+0+5+0+5)=85, 5 1 2 2 2 2 2 s2 甲= [(79-85) +(82-85) +(82-85) +(87-85) +(95-85) ]=31.6, 5 1 2 2 2 2 2 s2 乙= [(75-85) +(80-85) +(85-85) +(90-85) +(95-85) ]=50, 5
2 ②因为 x 甲= x 乙,s2 甲<s乙,所以甲的成绩较稳定,派甲参赛比较合适.

2. (2015· 潍坊联考)交通指数是交通拥堵指数的简称, 是综合反映道路网畅通或拥堵的概 念,记交通指数为 T,其范围为[0,10],分别有五个级别:T∈[0,2)畅通;T∈[2,4)基本畅通; T∈[4,6)轻度拥堵;T∈[6,8)中度拥堵;T∈[8,10]严重拥堵.晚高峰时段(T≥2),从某市交通 指挥中心选取了市区 20 个交通路段,依据其交通指数数据绘制的部分直方图如图所示.

(1)请补全直方图,并求出轻度拥堵、中度拥堵、严重拥堵路段各有多少个; (2)用分层抽样的方法从交通指数在[4,6),[6,8),[8,10]的路段中共抽取 6 个路段,求依次 抽取的三个级别路段的个数; (3)从(2)中抽出的 6 个路段中任取 2 个,求至少 1 个路段为轻度拥堵的概率. 解:(1)补全直方图如图:

22

由直方图可知:(0.1+0.2)×1×20=6, (0.25+0.2)×1×20=9, (0.1+0.05)×1×20=3. ∴这 20 个路段中,轻度拥堵、中度拥堵、严重拥堵的路段分别为 6 个、9 个、3 个. (2)由(1)知拥堵路段共有 6+9+3=18 个,按分层抽样从 18 个路段中选出 6 个,每种情 6 6 6 况分别为: ×6=2, ×9=3, ×3=1,即这三个级别路段中分别抽取的个数为 2,3,1. 18 18 18 (3)记(2)中选取的 2 个轻度拥堵路段为 A1,A2,选取的 3 个中度拥堵路段为 B1,B2,B3, 选取的 1 个严重拥堵路段为 C1, 则从 6 个路段选取 2 个路段的可能情况如下: (A1,A2),(A1,B1),(A1,B2),(A1,B3),(A1,C1),(A2,B1),(A2,B2),(A2,B3),(A2, C1),(B1,B2),(B1,B3),(B1,C1),(B2,B3),(B2,C1),(B3,C1),共 15 种可能. 其中至少有 1 个轻度拥堵的有:(A1,A2),(A1,B1),(A1,B2),(A1,B3),(A1,C1),(A2, B1),(A2,B2),(A2,B3),(A2,C1),共 9 种可能. 9 3 ∴所选 2 个路段中至少 1 个路段轻度拥堵的概率为 = . 15 5 3.(2015· 长春二模)国家环境标准制定的空气质量指数与空气质量等级对应关系如下表: 空气质量 指数 空气质量 等级 0~50 51~100 101~150 151~200 4 级中度 污染 201~300 300 以上

1 级优

2 级良

3 级轻度污染

5 级重度污染

6 级严重污染

由全国重点城市环境监测网获得 2 月份某五天甲城市和乙城市的空气质量指数数据用茎 叶图表示如下: 甲城市 9 7 3 5 6 2 4 5 7 10 3 5 8 1 8 乙城市

23

(1)试根据上面的统计数据, 判断甲、 乙两个城市的空气质量指数的方差的大小关系(只需 写出结果); (2)试根据上面的统计数据,估计甲城市某一天空气质量等级为 2 级良的概率; (3)分别从甲城市和乙城市的统计数据中任取一个,试求这两个城市空气质量等级相同的 概率. 解:(1)甲城市的空气质量指数的方差大于乙城市的空气质量指数的方差. 3 (2)根据题中的统计数据,可得在这五天中甲城市空气质量等级为 2 级良的频率为 ,则 5 3 估计甲城市某一天的空气质量等级为 2 级良的概率为 . 5 (3)设事件 A“从题中甲城市和乙城市的统计数据中分别任取一个,这两个城市的空气质 量等级相同”, 由题意可知, 从甲城市和乙城市的监测数据中分别任取一个, 共有 25 个结果, 分别记为:(29,43),(29,41),(29,55),(29,58),(29,78),(53,43),(53,41),(53,55),(53,58), (53,78), (57,43), (57,41), (57,55), (57,58), (57,78), (75,43), (75,41), (75,55), (75,58), (75,78), (106,43),(106,41),(106,55),(106,58),(106,78). 其数据表示两城市空气质量等级相同的包括同为 1 级优的为甲 29,乙 41,乙 43,同为 2 级良的为甲 53,甲 57,甲 75,乙 55,乙 58,乙 78. 则空气质量等级相同的为:(29,41),(29,43),(53,55),(53,58),(53,78),(57,55),(57,58), (57,78),(75,55),(75,58),(75,78),共 11 个结果. 11 由古典概型可得 P(A)= . 25 11 所以这两个城市空气质量等级相同的概率为 . 25

第四节

变量间的相关关系__统计案例

对应学生用书 P156

基础盘查一 变量的相关关系 (一)循纲忆知 1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系. 2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程. 3.了解回归分析的基本思想、方法及其简单应用.
24

(二)小题查验 1.判断正误 (1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系( )

(2) 利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系去表示 ( ) ^ ^ ^ (3)通过回归方程y=bx+a可以估计和观测变量的取值和变化趋势( (4)任何一组数据都对应着一个回归直线方程( 答案:(1)× (2)√ (3)√ (4)× ) )

2. (人教 A 版教材例题改编)从某大学中随机选取 8 名女大学生, 其身高和体重数据如表: 身高/cm 体重/kg 165 48 165 57 157 50 170 54 175 64 165 61 155 43 170 59

则女大学生的身高预测体重的回归方程为_____________.
^

答案:y=0.849x-85.712 3.已知 x,y 之间的一组数据如下表:

x y

2 3

3 4

4 6

5 8

6 9

8 2 3 对于表中数据,现给出如下拟合直线:①y=x+1;②y=2x-1;③y= x- ;④y= x. 5 5 2 则根据最小二乘法的思想求得拟合程度最好的直线是________(填序号). ∑ ?x -x ??yi- y ? 8 ^ i=1 i 解析:由题意知 x =4, y =6,∴b= = , - 5 5 2 ∑ ? x - x ? i =
i 1 5
- -

2 8 2 ^ ∴a=y -b x =- ,∴y= x- ,∴填③. 5 5 5
- -

^

^

答案:③ 基础盘查二 独立性检验 (一)循纲忆知 了解独立性检验(只要求 2×2 列联表)的基本思想、方法及其简单应用. (二)小题查验 1.判断正误 (1)事件 X,Y 关系越密切,则由观测数据计算得到的 K2 的观测值越大( n?ab-cd?2 (2)K2= ( ?a+b??a+d??a+c??b+d? ) )

25

答案:(1)√ (2)× 2.(人教 A 版教材习题改编)为研究吸烟是否对患肺癌有影响, 某肿瘤研究所随机地调查 了 9 965 人,得出如下结果(单位:人): 不患肺癌 不吸烟 吸烟 总计 7 775 2 099 9 874 患肺癌 42 49 91 总计 7 817 2 148 9 965

则患肺癌与吸烟________(填“有关”或“无关”) 答案:有关 3.某班主任对全班 30 名男生进行了作业量多少的调查,数据如下表: 认为作业多 喜欢玩电脑游戏 不喜欢玩电脑游戏 总计 12 2 14 认为作业不多 8 8 16 总计 20 10 30

该班主任据此推断男生认为作业多与喜欢玩电脑游戏有关系,则这种推断犯错误的概率 不超过________. 30×?12×8-2×8?2 解析:计算得 K2 的观测值为 k= ≈4.286>3.841,则推断犯错误的概 14×16×20×10 率不超过 0.050. 答案:0.050 对应学生用书 P157

考点一 相关关系的判断|(基础送分型考点——自主练透) [必备知识] (1)如果散点图中点的分布从整体上看大致在一条直线的附近,我们说变量 x 和 y 具有线 性相关关系.
n
--

(2)相关系数 r=

- - ,当 n 2 2 2 ?∑ xi -nx ??∑ yi -ny 2? i=1 i=1

i 1

∑ xiyi-nx y =

n

r>0 时,两变量正相关,当 r<0 时,两

变量负相关,当|r|≤1 且|r|越接近于 1,相关程度越高,当|r|≤1 且|r|越接近于 0,相关程度越 低. [题组练透] 1.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是

26

(

)

A.r2<r4<0<r3<r1 C.r4<r2<0<r3<r1

B.r4<r2<0<r1<r3 D.r2<r4<0<r1<r3

解析:选 A 易知题中图(1)与图(3)是正相关,图(2)与图(4)是负相关,且图(1)与图(2)中 的样本点集中分布在一条直线附近,则 r2<r4<0<r3<r1. 2.四名同学根据各自的样本数据研究变量 x,y 之间的相关关系,并求得回归直线方程, 分别得到以下四个结论:
^

①y 与 x 负相关且y=2.347x-6.423;
^

②y 与 x 负相关且y=-3.476x+5.648;
^

③y 与 x 正相关且y=5.437x+8.493;
^

④y 与 x 正相关且y=-4.326x-4.578. 其中一定不正确的结论的序号是( A.①② C.③④ ) B.②③ D.①④

解析:选 D 正相关指的是 y 随 x 的增大而增大,负相关指的是 y 随 x 的增大而减小, 故不正确的为①④,故选 D. [类题通法] 相关关系的直观判断方法就是作出散点图,若散点图呈带状且区域较窄,说明两个变量 有一定的线性相关性, 若呈曲线型也是有相关性, 若呈图形区域且分布较乱则不具备相关性.

考点二 回归方程的求法及回归分析|(重点保分型考点——师生共研) [必备知识] 回归方程的求法 求回归方程的方法是最小二乘法, 即使得样本数据的点到回归直线的距离的平方和最小.

27

^ 若变量 x 与 y 具有线性相关关系, 有 n 个样本数据(xi,yi)(i=1,2, ?, n), 则回归方程y=

^ ^ ^ bx+a中b=

i=1

? ?xi- x ??yi- y ?

i=1

n



i=1 n

?xiyi-nx y
2 ?x2 i -nx


n

--

? ?xi- x?2

n



- - - - - 1n 1n ^ - ^ ,a= y -b x .其中x = ?xi,y = ?yi,( x ,y )称为 ni=1 ni=1

i=1

样本点的中心. ^ ^ ^ - - [提醒] 回归直线y=bx+a必过样本点的中心( x , y ),这个结论既是检验所求回归直线 方程是否准确的依据,也是求参数的一个依据. [典题例析] (2014· 新课标全国卷Ⅱ)某地区 2007 年至 2013 年农村居民家庭人均纯收入 y(单位: 千元) 的数据如下表: 年份 年份代号 t 人均纯收入 y 2007 1 2.9 2008 2 3.3 2009 3 3.6 2010 4 4.4 2011 5 4.8 2012 6 5.2 2013 7 5.9

(1)求 y 关于 t 的线性回归方程; (2)利用(1)中的回归方程, 分析 2007 年至 2013 年该地区农村居民家庭人均纯收入的变化 情况,并预测该地区 2015 年农村居民家庭人均纯收入. 附:回归直线的斜率和截距的最小二乘估计公式分别为:

^ b=

i=1

? ?ti- t ??yi- y ? ? ?ti- t ?2
n

n

^ ^ ,a= y -b t .

i=1

解:(1)由所给数据计算得 1 t = (1+2+3+4+5+6+7)=4, 7 1 y = (2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3, 7

i=1

? (ti- t )2=9+4+1+0+1+4+9=28,
7

7

i=1

? (ti- t )(yi- y )=(-3)×(-1.4)+(- 2)×(-1)+ (- 1)×(- 0.7)+ 0×0.1+1×0.5+

2×0.9+3×1.6=14,

28

^ b=

i=1

? ?ti- t ??yi- y ? ? ?ti- t ?2
7

7

14 = =0.5, 28

i=1

^ ^ a= y -b t =4.3-0.5×4=2.3, ^ 所求回归方程为y=0.5t+2.3. ^ (2)由(1)知,b=0.5>0,故 2007 年至 2013 年该地区农村居民家庭人均纯收入逐年增加, 平均每年增加 0.5 千元. 将 2015 年的年份代号 t=9 代入(1)中的回归方程, ^ 得y=0.5×9+2.3=6.8, 故预测该地区 2015 年农村居民家庭人均纯收入为 6.8 千元. [类题通法] ^ ^ 1.正确理解计算b,a的公式和准确的计算是求线性回归方程的关键. ^ ^ ^ 2.回归直线方程y=bx+a必过样本点中心( x , y ). 3. 在分析两个变量的相关关系时, 可根据样本数据作出散点图来确定两个变量之间是否 具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测. [演练冲关] (2015· 石家庄模拟)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量 x(吨)与相应的生产能耗 y(吨标准煤)的几组对照数据. x y (1)请画出上表数据的散点图; ^ ^ ^ (2)请根据上表提供的数据,用最小二乘法求出 y 关于 x 的线性回归方程y=bx+a; (3)已知该厂技改前 100 吨甲产品的生产能耗为 90 吨标准煤,试根据(2)求出的线性回归 方程,预测生产 100 吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:3×2.5+4×3+5×4+6×4.5=66.5) 解:(1)由题意,作散点图如图. 3 2.5 4 3 5 4 6 4.5

29

(2)由对照数据,计算得 ?xiyi=66.5,
i=1

4

i=1

2 2 2 2 ?x2 i =3 +4 +5 +6 =86,

4

x =4.5, y =3.5, ^ 66.5-4×4.5×3.5 66.5-63 b= = =0.7, 86-4×4.52 86-81 ^ ^ a= y -b x =3.5-0.7×4.5=0.35, ^ 所以回归方程为y=0.7x+0.35. (3)当 x=100 时, y=100×0.7+0.35=70.35(吨标准煤), 预测生产 100 吨甲产品的生产能 耗比技改前降低 90-70.35=19.65(吨标准煤).

考点三 独立性检验|(重点保分型考点——师生共研) [必备知识] 1.2×2 列联表 设 X,Y 为两个变量,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2×2 列联表)如下: y1 x1 x2 总计 2.独立性检验 n?ad-bc?2 利用随机变量 K = ( 其中 n= a+b+c+ d 为样本容量 )来判断 ?a+b??c+d??a+c??b+d?
2

y2 b d b+d

总计 a+b c+d a+b+c+d

a c a+c

“两个变量有关系”的方法称为独立性检验. [典题例析] (2014· 江西高考)某人研究中学生的性别与成绩、视力、智商、阅读量这 4 个变量的关系, 随机抽查 52 名中学生,得到统计数据如表 1 至表 4,则与性别有关联的可能性最大的变量是 ( ) 表1 成绩 性别 不及格 及格 总计 表2

30

视力 性别 男 女 总计 6 10 16 14 22 36 20 32 52 男 女 总计

好 4 12 16

差 16 20 36

总计 20 32 52

表3 智商 性别 男 女 总计 偏高 8 8 16 正常 12 24 36 总计 性别 20 32 52 男 女 总计 B.视力 D.阅读量 阅读量 丰富 14 2 16

表4 不丰富 6 30 36 总计 20 32 52

A.成绩 C.智商 解析:选 D 因为
2 K2 =

52×?6×22-14×10?2 2 K1= = 16×36×32×20

52×82 , 16×36×32×20

52×?4×20-16×12?2 52×1122 = , 16×36×32×20 16×36×32×20 52×?8×24-12×8?2 52×962 = , 16×36×32×20 16×36×32×20 52×?14×30-6×2?2 52×4082 = , 16×36×32×20 16×36×32×20

2 K3 =

2 K4 =

2 2 2 则有 K2 4>K2>K3>K1,所以阅读量与性别关联的可能性最大.

[类题通法] 1.在 2×2 列联表中,如果两个变量没有关系,则应满足 ad-bc≈0.|ad-bc|越小,说明 两个变量之间关系越弱;|ad-bc|越大,说明两个变量之间关系越强. 2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论. [演练冲关] (2015· 辽宁沈阳月考)某班主任对全班 50 名学生的学习积极性和对待班级工作的态度进 行了调查,统计数据如下表所示: 积极参加班级工作 学习积极性高 学习积极性一般 合计 18 6 24 不太主动参加班级工作 7 19 26 合计 25 25 50

31

(1)如果随机抽查这个班的一名学生,那么抽到积极参加班级工作的学生的概率是多少? 抽到不太主动参加班级工作且学习积极性一般的学生的概率是多少? (2)试运用独立性检验的思想方法分析:学生的学习积极性与对待班级工作的态度是否有 关?并说明理由. 解:(1)随机抽查这个班的一名学生,有 50 种不同的抽查方法,由于积极参加班级工作 的学生有 18+6=24 人, 所以有 24 种不同的抽法, 因此由古典概型概率的计算公式可得抽到 24 12 积极参加班级工作的学生的概率是 P1= = ,又因为不太主动参加班级工作且学习积极性 50 25 一般的学生有 19 人,所以抽到不太主动参加班级工作且学习积极性一般的学生的概率是 P2 19 = . 50 (2)由 K2 统计量的计算公式得 50×?18×19-6×7?2 K2= ≈11.538, 24×26×25×25 由于 11.538>10.828,所以有 99.9%的把握认为学生的学习积极性与对待班级工作的态度 有关系.

对应 A 本课时跟踪检测(六十一)

一、选择题 1.(2014· 湖北高考)根据如下样本数据 x y 3 4.0 4 2.5 5 -0.5 ) B.a>0,b<0 D.a<0,b<0 6 0.5 7 -2.0 8 -3.0

^ 得到的回归方程为y=bx+a,则( A.a>0,b>0 C.a<0,b>0

解析:选 B 由表中数据画出散点图,如图,

由散点图可知 b<0,a>0,选 B. 2.2014 年春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问 100 名性别不同的居民是否能做到“光盘”行动,得到如下的列联表: 做不到“光盘” 男 45
32

能做到“光盘” 10

女 则下面的正确结论是( )

30

15

A.有 90%以上的把握认为“该市居民能否做到‘光盘’与性别有关” B.在犯错误的概率不超过 1%的前提下,认为“该市居民能否做到‘光盘’与性别无 关” C.在犯错误的概率不超过 1%的前提下,认为“该市居民能否做到‘光盘’与性别有 关” D.有 90%以上的把握认为“该市居民能否做到‘光盘’与性别无关” 解析:选 A 由 2×2 列联表得到 a=45,b=10,c=30,d=15,则 a+b=55,c+d= 45, a+c=75, b+d=25, ad=675, bc=300, n=100, 计算得 K2 的观测值 k= 100×?675-300?2 55×45×75×25

≈3.030.因为 2.706<3.030<3.841,所以有 90%以上的把握认为“该市居民能否做到‘光盘’ 与性别有关”,故选 A. 3.(2015· 石家庄一模)登山族为了了解某山高 y(km)与气温 x(° C)之间的关系,随机统计 了 4 次山高与相应的气温,并制作了对照表: 气温 x(° C) 山高 y(km) 18 24 13 34 10 38 -1 64

^ ^^ 由表中数据,得到线性回归方程y=-2x+a(a∈R),由此请估计出山高为 72(km)处气温 的度数为( A.-10 C.-4 ) B.-8 D.-6

解析:选 D 由题意可得 x =10, y =40, ^ 所以a= y +2 x =40+2×10=60. ^ ^ 所以y=-2x+60,当y=72 时,有-2x+60=72,解得 x=-6,故选 D. 4.(2015· 兰州、张掖联考)对具有线性相关关系的变量 x,y 有一组观测数据(xi,yi)(i= ^ 1 ^ 1,2,?,8),其回归直线方程是y= x+a,且 x1+x2+x3+?+x8=2(y1+y2+y3+?+y8)=6, 3 ^ 则实数a的值是( 1 A. 16 1 C. 4 ) 1 B. 8 1 D. 2

3 3? 解析:选 B 依题意可知样本中心点为? ?4,8?,

33

3 1 3 ^ ^ 1 则 = × +a,解得a= . 8 3 4 8 5. (2015· 东营二模)某商品的销售量 y(件)与销售价格 x(元/件)存在线性相关关系, 根据一 ^ 组样本数据(xi,yi)(i=1,2,?,n),用最小二乘法建立的回归方程为y=-10x+200,则下列 结论正确的是( )

A.y 与 x 具有正的线性相关关系 B.若 r 表示变量 y 与 x 之间的线性相关系数,则 r=-10 C.当销售价格为 10 元时,销售量为 100 件 D.当销售价格为 10 元时,销售量为 100 件左右 ^ 解析:选 D 当销售价格为 10 元时,y=-10×10+200=100,即销售量为 100 件左右. ^ 6. (2015· 大连双基考试)对于下列表格所示五个散点, 已知求得的线性回归方程为y=0.8x -155,则实数 m 的值为( x y A.8 C.8.4 解析:选 A y= ) 196 1 197 3 200 6 B.8.2 D.8.5 196+197+200+203+204 x= =200, 5 203 7 204 m

1+3+6+7+m 17+m = . 5 5

17+m? 17+m? ^ 样本中心点为?200, ,将样本中心点?200, 代入y=0.8x-155,可得 m= 5 ? 5 ? ? ? 8.故 A 正确. 二、填空题 7.(2015· 厦门诊断)为考察棉花种子经过处理跟生病之间的关系得到下表数据: 种子处理 得病 不得病 总计 32 61 93 种子未处理 101 213 314 总计 133 274 407

根据以上数据,则种子经过处理与是否生病________(填“有”或“无”)关. 解析:在假设无关的情况下,根据题意 K2= n?ad-bc?2 ≈0.16,可以得到 ?a+b??c+d??a+c??b+d?

无关的概率大于 50%,所以种子经过处理跟是否生病有关的概率小于 50%,所以可以认为种 子经过处理与是否生病无关. 答案:无
34

8.为了均衡教育资源,加大对偏远地区的教育投入,调查了某地若干户家庭的年收入 x(单元:万元)和年教育支出 y(单位:万元),调查显示年收入 x 与年教育支出 y 具有线性相关 ^ 关系,并由调查数据得到 y 对 x 的回归直线方程为y=0.15x+0.2.由回归直线方程可知,家庭 年收入每增加 1 万元,则年教育支出平均增加________万元. 解析:因为回归直线的斜率为 0.15,所以家庭年收入每增加 1 万元,年教育支出平均增 加 0.15 万元. 答案:0.15 9.(2015· 忻州联考)已知 x,y 的取值如下表: x y 2 2.2 3 3.8 4 5.5 5 6.5

^ ^ ^ 从散点图分析,y 与 x 线性相关,且回归方程为y=1.46x+a,则实数a的值为________. 解析: x = 2+3+4+5 2.2+3.8+5.5+6.5 =3.5, y = =4.5,回归方程必过样本的中心 4 4

^ 点( x , y ).把(3.5,4.5)代入回归方程,计算得a=-0.61. 答案:-0.61 10.为了解某班学生喜爱打篮球是否与性别有关,对该班 50 名学生进行了问卷调查,得 到了如下的 2×2 列联表: 喜爱打篮球 男生 女生 总计 20 10 30 不喜爱打篮球 5 15 20 总计 25 25 50

则在犯错误的概率不超过________的前提下认为喜爱打篮球与性别有关 (请用百分数表 示). P(K2≥k0) k0 解析:K2= = 0.10 2.706 0.05 3.841 0.025 5.024 0.010 6.635 0.005 7.879 0.001 10.828

n?ad-bc?2 ?a+b??c+d??a+c??b+d?

50×?20×15-5×10?2 ≈8.333>7.879. 25×25×30×20

答案:0.5% 三、解答题 11.(2015· 大连高三质检)假设关于某设备的使用年限 x(年)和所支出的维修费用 y(万元), 有如下表的统计资料: 使用年限 x(年) 2
35

3

4

5

6

维修费用 y(万元)

2.2

3.8

5.5

6.5

7.0

若由资料可知 y 对 x 呈线性相关关系,试求: (1)线性回归直线方程; (2)根据回归直线方程,估计使用年限为 12 年时,维修费用是多少? 解:(1)列表 i xi yi xiyi x2 i 1 2 2.2 4.4 4 2 3 3.8 11.4 9 3 4 5.5 22.0 16 4 5 6.5 32.5 25 5 6 7.0 42.0 36 合计 20 25 112.3 90

x =4, y =5;

i=1

?x2 i =90; ?xiyi=112.3
i=1

5

5

^ b=

i=1

?xiyi-5 x y ?xi2-5x2
5


5

- -

112.3-5×4×5 = =1.23, 90-5×42

i=1

^ ^ 于是a= y -b x =5-1.23×4=0.08. ^ 所以线性回归直线方程为y=1.23x+0.08. ^ (2)当 x=12 时, y=1.23×12+0.08=14.84(万元), 即估计使用 12 年时, 维修费用是 14.84 万元. 12.(2015· 保定调研)某高校为调查学生喜欢“应用统计”课程是否与性别有关,随机抽 取了选修课程的 55 名学生,得到数据如下表: 喜欢“应用统计”课程 男生 女生 总计 20 10 30 不喜欢“应用统计”课程 5 20 25 总计 25 30 55

(1)判断是否有 99.5%的把握认为喜欢“应用统计”课程与性别有关? (2)用分层抽样的方法从喜欢统计课程的学生中抽取 6 名学生做进一步调查,将这 6 名学 生作为一个样本,从中任选 2 人,求恰有 1 个男生和 1 个女生的概率. 下面的临界值表供参考: P(K2≥k) 0.15 0.10 0.05 0.25 0.010 0.005 0.001

36

k (参考公式:K2=

2.072

2.706

3.841

5.024

6.635

7.879

10.828

n?ad-bc?2 ,其中 n=a+b+c+d) ?a+b??c+d??a+c??b+d?

55×?20×20-10×5?2 解:(1)由公式 K = ≈11.978>7.879, 30×25×25×30
2

所以有 99.5%的把握认为喜欢“应用统计”课程与性别有关. 6 m (2)设所抽样本中有 m 个男生,则 = ,得 m=4,所以样本中有 4 个男生,2 个女生, 30 20 分别记作 B1,B2,B3,B4,G1,G2.从中任选 2 人的基本事件有(B1,B2),(B1,B3),(B1,B4), (B1,G1),(B1,G2),(B2,B3),(B2,B4),(B2,G1),(B2,G2),(B3,B4),(B3,G1),(B3,G2), (B4,G1),(B4,G2),(G1,G2),共 15 个, 其中恰有 1 个男生和 1 个女生的事件有(B1,G1),(B1,G2),(B2,G1),(B2,G2),(B3, G1),(B3,G2),(B4,G1),(B4,G2),共 8 个. 8 所以恰有 1 个男生和 1 个女生的概率为 . 15 [B 卷——增分提能] 1.(2015· 贵阳适应性考试)一次考试中,五名学生的数学、物理成绩如下表所示: 学生 数学成绩 x(分) 物理成绩 y(分) A1 89 87 A2 91 89 A3 93 89 A4 95 92 A5 97 93

(1)要从 5 名学生中选 2 人参加一项活动, 求选中的学生中至少有一人的物理成绩高于 90 分的概率;

(2)根据上表数据,用变量 y 与 x 的相关系数和散点图说明物理成绩 y 与数学成绩 x 之间 线性相关关系的强弱.如果具有较强的线性相关关系,求 y 与 x 的线性回归方程(系数精确到 0.01);如果不具有线性相关关系,请说明理由. 参考公式:

i=1

? ?xi- x ??yi- y ? ? ?xi- x ?2 ? ?yi- y ?2
i=1 n n

n

相关系数 r=
i=1

37

^ ^ ^ ^ 回归直线的方程是:y=bx+a,其中b=

i=1

? ?xi- x ??yi- y ?

i=1

n

? ?xi- x ?2

n

^ ^ a=y-bx; ^ yi 是与 xi 对应的回归估计值. 参考数据: x =93, y =90, ? (xi- x )2=40, ? (yi- y )2=24, ? (xi- x )(yi- y )
i=1 i=1 i=1 5 5 5

=30, 40≈6.32, 24≈4.90. 解:(1)从 5 名学生中任取 2 名学生的所有情况为:(A1,A2),(A1,A3),(A1,A4),(A1, A5),(A2,A3),(A2,A4),(A2,A5),(A3,A4),(A3,A5),(A4,A5),共 10 种情况. 其中至少有一人的物理成绩高于 90 分的情况有: (A1,A4),(A1,A5),(A2,A4),(A2,A5),(A3,A4),(A3,A5),(A4,A5),共 7 种情况, 7 故选中的学生中至少有一人的物理成绩高于 90 分的概率为 . 10 (2)变量 y 与 x 的相关系数是 r= 30 30 ≈ ≈0.97. 40× 24 30.97

可以看出, 物理成绩与数学成绩高度正相关. 散点图如图所示: 从散点图可以看出这些点大致分布在一条直线附近,并且在逐 步上升,故物理成绩与数学成绩正相关. ^ ^ ^ 设 y 与 x 的线性回归方程是y=bx+a,根据所给的数据,可以 ^ 30 ^ 计算出b= =0.75,a=90-0.75×93=20.25, 40 ^ 所以 y 与 x 的线性回归方程是y=0.75x+20.25. 2. (2014· 辽宁高考)某大学餐饮中心为了解新生的饮食习惯, 在全校一年级学生中进行了 抽样调查,调查结果如下表所示: 喜欢甜品 南方学生 北方学生 总计 60 10 70 不喜欢甜品 20 10 30 总计 80 20 100

(1)根据表中数据, 问是否有 95%的把握认为“南方学生和北方学生在选用甜品的饮食习 惯方面有差异”; (2)已知在被调查的北方学生中有 5 名数学系的学生,其中 2 名喜欢甜品,现在从这 5 名 学生中随机抽取 3 人,求至多有 1 人喜欢甜品的概率.
38

P(K2≥k) K

0.100 2.706

0.050 3.841

0.010 6.635

解:(1)将 2×2 列联表中的数据代入公式计算,得 100×?60×10-20×10?2 K2= ≈4.762. 70×30×80×20 由于 4.762>3.841, 所以有 95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯 方面有差异”. (2)设 5 名数学系的学生中喜欢甜品的 2 人为 a1,a2,不喜欢甜品的 3 人为 b1,b2,b3, 则从 5 名数学系的学生中任选 3 人有 (a1,a2,b1),(a1,a2,b2),(a1,a2,b3),(a1,b1,b2),(a1,b1,b3)(a1,b2,b3),(a2, b1,b2),(a2,b1,b3),(a2,b2,b3),(b1,b2,b3)共 10 个基本事件,用 A 表示“3 人中至多 有 1 人喜欢甜品”,则共有(a1,b1,b2),(a1,b1,b3),(a1,b2,b3),(a2,b1,b2),(a2,b1, b3),(a2,b2,b3),(b1,b2,b3)共 7 个基本事件, 7 故 P(A)= . 10

见课时跟踪检测A本

命题点一 算法 难度:中

命题指数:☆☆☆☆ 题型:选择题、填空题

1.(2014· 新课标全国卷Ⅰ)执行下面的程序框图,若输入的 a,b, k 分别为 1,2,3,则输出的 M=( 20 A. 3 16 C. 5 解析:选 D ) 7 B. 2 15 D. 8 3 3 第一次循环:M= ,a=2,b= ,n=2;第二次 2 2

8 3 8 15 8 循环:M= ,a= ,b= ,n=3;第三次循环:M= ,a= ,b= 3 2 3 8 3 15 15 ,n=4,则输出 M= ,选 D. 8 8 2.(2013· 山东高考)执行两次如图所示的程序框图,若第一次输 入的 a 的值为-1.2,第二次输入的 a 的值为 1.2,则第一次、第二次 输出的 a 的值分别为( )
39

A.0.2,0.2 B.0.2,0.8 C.0.8,0.2 D.0.8,0.8 解析:选 C 两次运行结果如下: 第一次:-1.2→-1.2+1→-0.2+1→0.8; 第二次:1.2→1.2-1→0.2. 3.(2013· 新课标全国卷Ⅱ)执行下面的程序框图,如果输入的 N=4,那 么输出的 S=( )

1 1 1 A.1+ + + 2 3 4 1 1 1 B.1+ + + 2 3×2 4×3×2 1 1 1 1 C.1+ + + + 2 3 4 5 1 1 1 1 D.1+ + + + 2 3×2 4×3×2 5×4×3×2 解析:选 B 按程序框图逐步计算可知: 1 1 1 S=1+ + + . 2 3×2 4×3×2 4.(2014· 天津高考)阅读如图所示的框图,运行相应的程序,输出 S 的值为________.

解析:S=0,n=3,第 1 次运行,S=0+(-2)3=-8,n=2,不满足条件;第 2 次运行, S=-8+(-2)2=-8+4=-4,n=1,满足条件,跳出循环,输出 S 的值为-4. 答案:-4

命题点二 抽样方法 难度:低

命题指数:☆☆☆ 题型:选择题、填空题

40

1.(2014· 重庆高考)某中学有高中生 3 500 人,初中生 1 500 人.为了解学生的学习情况, 用分层抽样的方法从该校学生中抽取一个容量为 n 的样本,已知从高中生中抽取 70 人,则 n 为( ) A.100 C.200 B.150 D.250

70 1 n 解析:选 A 样本抽取比例为 = ,该校总人数为 1 500+3 500=5 000,则 = 3 500 50 5 000 1 ,故 n=100,选 A. 50 2.(2013· 陕西高考)某单位有 840 名职工,现采用系统抽样方法抽取 42 人做问卷调查, 将 840 人按 1,2, ?, 840 随机编号, 则抽取的 42 人中, 编号落入区间[481,720]的人数为( A.11 C.13 B.12 D.14 )

解析:选 B 因为 840∶42=20∶1,故编号在[481,720]内的人数为 240÷ 20=12.

命题点三 用样本估计总体 难度:中

命题指数:☆☆☆☆☆ 题型:选择题、填空题、解答题

1. (2014· 四川高考)在“世界读书日”前夕, 为了了解某地 5 000 名居民某天的阅读时间, 从中抽取了 200 名居民的阅读时间进行统计分析. 在这个问题中, 5 000 名居民的阅读时间的 全体是( ) B.个体 D.从总体中抽取的一个样本

A.总体 C.样本的容量

解析:选 A 5 000 名居民的阅读时间的全体是总体,每名居民的阅读时间是个体,200 是样本容量,故选 A. 2.(2014· 山东高考)为了研究某药品的疗效,选取若干名志愿者进行临床试验,所有志愿 者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其 按从左到右的顺序分别编号为第一组,第二组,?,第五组.如图是根据试验数据制成的频 率分布直方图.已知第一组与第二组共有 20 人,第三组中没有疗效的有 6 人,则第三组中有 疗效的人数为( )

41

A.6 C.12

B.8 D.18

20 解析:选 C 第一组和第二组的频率之和为 0.4,故样本容量为 =50,第三组的频率 0.4 为 0.36,故第三组的人数为 50×0.36=18,故第三组中有疗效的人数为 18-6=12. 3.(2014· 陕西高考)某公司 10 位员工的月工资(单位:元)为 x1,x2,?,x10 ,其均值和 方差分别为 x 和 s2,若从下月起每位员工的月工资增加 100 元,则这 10 位员工下月工资的 均值和方差分别为( A. x ,s2+1002 C. x ,s2 ) B. x +100, s2+1002 D. x +100, s2

解析: 选 D 法一: 对平均数和方差的意义深入理解可巧解. 因为每个数据都加上了 100, 故平均数也增加 100,而离散程度应保持不变,故选 D. 法二:由题意知 x1+x2+?+xn=n x , 1 s2= [(x1- x )2+(x2- x )2+?+(xn- x )2], n 1 1 则所求均值 y = [(x1+100)+(x2+100)+…+(xn+100)]= (n x +n×100)= x +100, n n 1 1 而所求方差 t2= [(x1+100- y )2+(x2+100- y )2+?+(xn+100- y )2]= [(x1- x )2 n n +(x2- x )2+?+(xn- x )2]=s2,故选 D. 4. (2014· 新课标全国卷Ⅰ)从某企业生产的某种产品中抽取 100 件, 测量这些产品的一项 质量指标值,由测量结果得如下频数分布表: 质量指标值分组 频数 [75,85) 6 [85,95) 26 [95,105) 38 [105,115) 22 [115,125)22 8

(1)在下表中作出这些数据的频率分布直方图:

42

(2)估计这种产品质量指标值的平均数及方差 (同一组中的数据用该组区间的中点值作代 表); (3)根据以上抽样调查数据, 能否认为该企业生产的这种产品符合“质量指标值不低于 95 的产品至少要占全部产品的 80%”的规定? 解:(1)如图所示:

(2)质量指标值的样本平均数为 x =80×0.06+90×0.26+100×0.38+110×0.22+120×0.08=100. 质量指标值的样本方差为 s2=(-20)2×0.06+(-10)2×0.26+02×0.38+102×0.22+202×0.08=104. 所以这种产品质量指标值的平均数的估计值为 100,方差的估计值为 104. (3)质量指标值不低于 95 的产品所占比例的估计值为 0.38+0.22+0.08=0.68. 由于该估计值小于 0.8,故不能认为该企业生产的这种产品符合“质量指标值不低于 95 的产品至少要占全部产品的 80%”的规定.

命题点四 回归分析与独立性检验 难度:中

命题指数:☆☆☆ 题型:选择题、填空题、解答题

1.(2014· 重庆高考)已知变量 x 与 y 正相关,且由观测数据算得样本平均数 x =3, y = 3.5,则由该观测数据算得的线性回归方程可能为( ^ A.y=0.4x+2.3 ^ C.y=-2x+9.5 )

^ B.y=2x-2.4 ^ D.y=-0.3x+4.4
43

解析: 选 A 依题意知, 相应的回归直线的斜率应为正, 排除 C, D.且直线必过点(3,3.5), 代入 A,B 得 A 正确. 2.(2013· 福建高考)已知 x 与 y 之间的几组数据如下表: x y 1 0 2 2 3 1 4 3 5 3 6 4

^ ^ ^ 假设根据上表数据所得线性回归直线方程为y=bx+a,若某同学根据上表中的前两组数 据(1,0)和(2,2)求得的直线方程为 y=b′x+a′,则以下结论正确的是( ^ ^ A.b>b′,a>a′ ^ ^ C.b<b′,a>a′ 解析:选 C ^ ^ B.b>b′,a<a′ ^ ^ D.b<b′,a<a′ )

由两组数据(1,0)和(2,2)可求得直线方程为 y=2x-2,b′=2,a′=-2.
6 -- ? x y -6 x ·y = i i 1 6 - ? x2-6 x 2 = i

^ i 而利用线性回归方程的公式与已知表格中的数据,可求得b=

i 1

7 13 58-6× × 2 6 = 7?2 91-6×? ?2?

5 ^ - ^- 13 5 7 1 ^ ^ = ,a= y -b x = - × =- ,所以b<b′,a>a′. 7 6 7 2 3 3.(2012· 湖南高考)设某大学的女生体重 y(单位:kg)与身高 x(单位:cm)具有线性相关关 ^ 系, 根据一组样本数据(xi, yi)(i=1,2, ?, n), 用最小二乘法建立的回归方程为y=0.85x-85.71, 则下列结论中不正确的是( )

A.y 与 x 具有正的线性相关关系 B.回归直线过样本点的中心( x , y ) C.若该大学某女生身高增加 1 cm,则其体重约增加 0.85 kg D.若该大学某女生身高为 170 cm,则可断定其体重必为 58.79 kg 解析:选 D 由于回归直线的斜率为正值,故 y 与 x 具有正的线性相关关系,选项 A 中 的结论正确;回归直线过样本点的中心,选项 B 中的结论正确;根据回归直线斜率的意义易 知选项 C 中的结论正确;由于回归分析得出的是估计值,故选项 D 中的结论不正确. 4.(2013· 福建高考)某工厂有 25 周岁以上(含 25 周岁)工人 300 名,25 周岁以下工人 200 名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了 100 名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25 周岁以上(含 25 周 岁)”和“25 周岁以下”分为两组,再将两组工人的日平均生产件数分成 5 组:[50,60), [60,70),[70,80),[80,90),[90,100]分别加以统计,得到如图所示的频率分布直方图.

44

(1)从样本中日平均生产件数不足 60 件的工人中随机抽取 2 人,求至少抽到一名“25 周 岁以下组”工人的概率; (2)规定日平均生产件数不少于 80 件者为“生产能手”,请你根据已知条件完成 2×2 列 联表,并判断是否有 90%的把握认为“生产能手与工人所在的年龄组有关”? P(χ2≥k) k n?n11n22-n12n21? 附:χ2= n1+n2+n+1n+2
2

0.100 2.706

0.050 3.841

0.010 6.635

0.001 10.828

n?ad-bc? ?注:此公式也可以写成K2= ? ? ? ?a+b??c+d??a+c??b+d?? ? 解:(1)由已知得,样本中有 25 周岁(含 25 周岁)以上组工人 60 名,25 周岁以下组工人 40 名. 所以, 样本中日平均生产件数不足 60 件的工人中, 25 周岁以上组工人有 60×0.05=3(人), 记为 A1,A2,A3;25 周岁以下组工人有 40×0.05=2(人),记为 B1,B2. 从中随机抽取 2 名工人,所有的可能结果共有 10 种,它们是:(A1,A2),(A1,A3),(A2, A3),(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2). 其中,至少 1 名“25 周岁以下组”工人的可能结果共有 7 种,它们是(A1,B1),(A1,B2), 7 (A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2).故所求的概率 P= . 10 (2)由频率分布直方图可知,在抽取的 100 名工人中,“25 周岁以上组(含 25 周岁)”中 的生产能手有 60×0.25=15(人),“25 周岁以下组”中的生产能手有 40×0.375=15(人),据 此可得 2×2 列联表如下: 生产能手 25 周岁以上组 25 周岁以下组 15 15 非生产能手 45 25 合计 60 40

2

45

合计 n?ad-bc?2 所以得 K2= ?a+b??c+d??a+c??b+d? =

30

70

100

100×?15×25-15×45?2 25 = ≈1.79. 14 60×40×30×70

因为 1.79<2.706, 所以没有 90%的把握认为“生产能手与工人所在的年龄组有关”.

“概率与统计”类题目的审题技巧与解题规范 [对应学生用书 P160]

[技法概述] 在高考的实际综合应用问题中,题目中的图表、数据包含着问题的基本信息,也往往暗 示着解决问题的目标和方向,在审题时,要认真观察分析图表、数据的特征和规律,为问题 解决提供帮助的方法. [适用题型] 在高考中以下几种题型常用到此审题方法: (1)概率与统计部分; (2)回归分析与统计案例; (3)算法与程序框图.

[典例] (2014· 重庆高考)(本题满分 12 分)20 名学生某次数学 考试成绩(单位:分)的频率分布直方图如右所示: (1)求频率分布直方图中 a 的值; (2)分别求出成绩落在[50,60)与[60,70)中的学生人数; (3)从成绩在[50,70)的学生中任选 2 人,求此 2 人的成绩都在 [60,70)中的概率.

46

[解题流程]
??1分? ??1?据直方图知组距为10, ? ? 审图表由面积 ?由?2a+3a+6a+7a+2a?×10=1,解得a= 1 =0.005.??3分? 200 ?

[失分警示]

第一步

易忘记所有小长方形面积 和为 1 不会求 a, 导致失分

和为 1 求 a 第二步 计算频数
×图 0.005 ×10 20 =2.??4分? ??2?成绩落在[50,60?中的学生人数为 忽 视 直2 方 中纵 轴× 表 示 ?? 频率 3×0.005×10×20=3.??6分? ?成绩落在[60,70?中的学生人数为 ,导致计算失误失分 组距

?

? ? ? ? ? ? 第四步
求概率

?3?记成绩落在[50,60?中的2人为A1,A2, 成绩落在[60,70?中的3人为B1,B2,B3, 则从成绩在[50,70?的学生中任选2人的基本事件共有10个: ?A1,A2?,?A1,B1?,?A1,B2?,?A1,B3?,?A2,B1?, ?A2,B2?,?A2,B3?,?B1,B2?,?B1,B3?,?B2,B3?,??9分? 其中2人的成绩都在[60,70?中的基本事件有3个: ?B1,B2?,?B1,B3?,?B2,B3?,??10分?

第三步 事件计数重复或遗漏 分析事件 导致错误 并计数

m 利用 P= n

?? ?

故所求概率为P=

3 .??12分? 10

1.(2014· 湖南高考)某企业有甲、乙两个研发小组.为了比较他们的研发水平,现随机抽 取这两个小组往年研发新产品的结果如下:
47

(a,b),(a, b ),(a,b),( a ,b),( a , b ),(a,b),(a,b),(a, b ),( a ,b), (a, b ),( a , b ),(a,b),(a, b ),( a ,b),(a,b). 其中 a, a 分别表示甲组研发成功和失败; b, b 分别表示乙组研发成功和失败. (1)若某组成功研发一种新产品,则给该组记 1 分,否则记 0 分.试计算甲、乙两组研发 新产品的成绩的平均数和方差,并比较甲、乙两组的研发水平; (2)若该企业安排甲、乙两组各自研发一种新产品,试估计恰有一组研发成功的概率. 解:(1)甲组研发新产品的成绩为 1,1,1,0,0,1,1,1,0,1,0,1,1,0,1. 10 2 其平均数为 x 甲= = ; 15 3
2 方差为 s甲 =

2 1 ?? 2?2 2 1- ×10+?0- ?2×5?= . 3? ? 3? ? 9 15??

乙组研发新产品的成绩为 1,0,1,1,0,1,1,0,1,0,0,1,0,1,1. 9 3 其平均数为 x 乙= = ; 15 5
2 方差为 s乙 =

3 1 ?? 3?2 6 1- ×9+?0- ?2×6?= . 5? ? 5? ? 25 15??

2 因为 x 甲> x 乙,s2 甲<s乙所以甲组的研发水平优于乙组.

(2)记 E={恰有一组研发成功}. 在所抽得的 15 个结果中,恰有一组研发成功的结果是 (a, b ),( a ,b),(a, b ),( a ,b),(a, b ),(a, b ),( a ,b), 7 共 7 个,故事件 E 发生的频率为 . 15 7 将频率视为概率,即得所求概率为 P(E)= . 15 2.(2015· 绵阳第三次诊断)绵阳市农科所研究出一种新的棉花品种,为监测长势状况,从 甲、乙两块试验田中各抽取了 10 株棉花苗,量出它们的株高如下(单位:厘米): 甲 乙 37 10 21 30 31 47 20 27 29 46 19 14 32 26 23 10 25 44 33 46

(1)画出两组数据的茎叶图, 并根据茎叶图对甲、 乙两块试验田中棉花苗的株高进行比较, 写出两个统计结论; (2)从甲、乙两块试验田的棉花苗株高在[23,29]中抽 3 株,求至少各有 1 株分别属于甲、 乙两块试验田的概率.

48

解:(1)画出的茎叶图如图所示. 甲 9 5 3 9 0 1 3 2 1 7 1 2 3 4 0 7 0 7 6 4 6 4 0 6 乙

根据茎叶图可得统计结论如下: 结论一:甲块试验田棉花苗的平均株高小于乙块试验田棉花苗的平均株高. 结论二:甲块试验田棉花苗比乙块试验田棉花苗长得整齐. (2)甲块试验田的棉花苗株高在[23,29]中的共有 3 株,分别记为 A、B、C,乙块试验田的 棉花苗株高在[23,29]中的共有 2 株, 分别记为 a, b, 从甲、 乙两块试验田的棉花苗株高在[23,29] 中抽 3 株的基本事件为:ABC,Aab,Bab,Cab,ABa,ACa,BCa,ABb,ACb,BCb,共 10 个. 其中,至少各有 1 株分别属于甲、乙两块试验田的基本事件为:Aab,Bab,Cab,ABa, ACa,BCa,ABb,BCb,共 9 个, 9 ∴所求概率 P= . 10 3.城市公交车的数量太多容易造成资源的浪费,太少又难以满足乘客需求,为此,某市 公交公司在某站台 60 名候车乘客中随机抽取 15 人,将他们的候车时间作为样本分成 5 组, 如下表所示(单位:min): 组别 一 二 三 四 五 候车时间 [0,5) [5,10) [10,15) [15,20) [20,25] 人数 2 6 4 2 1

(1)求这 15 名乘客的平均候车时间; (2)估计这 60 名乘客中候车时间少于 10 min 的人数; (3)若从上表第三、四组的 6 人中选 2 人作进一步问卷调查,求抽到的 2 人恰好来自不同 组的概率. 1 1 解:(1) ×(2.5×2+7.5×6+12.5×4+17.5×2+22.5×1)= ×157.5=10.5, 15 15 故这 15 名乘客的平均候车时间为 10.5 min.
49

2+6 8 (2)由图表可得,候车时间少于 10 分钟的概率为 = ,所以候车时间少于 10 min 的 15 15 8 人数为 60× =32. 15 (3)将第三组乘客编号为 a1,a2,a3,a4,第四组乘客编号为 b1,b2.从 6 人中任选 2 人的 所有可能情况为(a1,a2),(a1,a3),(a1,a4),(a1,b1),(a1,b2),(a2,a3),(a2,a4),(a2,b1), (a2,b2),(a3,a4),(a3,b1),(a3,b2),(a4,b1),(a4,b2),(b1,b2),共 15 种,其中 2 人恰 8 好来自不同组包含 8 种可能情况,故所求概率为 . 15

50


相关文章:
xs第六课时 随机抽样及用样本估计总体
X 鮀浦中学高三数学复习 第八章 概率与统计 第六课时 随机抽样及用样本估计总体 要点梳理点滴积累 构筑框架 一.总体、样本、样本容量 我们要考察的对象的全体叫做...
考点19随机抽样、用样本估计总体、变量间的相关关系、...
考点19随机抽样用样本估计总体、变量间的相关关系...总体、 变量间的相关关系、统计案例一、选择题 1....( 2014 ·山东高考文科·T 8 )与( 2014 ·山东...
随机抽样、用样本估计总体
随机抽样用样本估计总体_数学_高中教育_教育专区。...题图 sxw1 【参考答案】C 【测量目标】概率与统计...8. (15 福建高考)某高校一年级有 900 名学生,...
必修三_统计单元设计
必修3 统计单元设计一、知识结构图 简单随机抽样 ...(2)用样本估计总体 ①通过实例体会分布的意义和作用...(后诊) 八、教学方法:让学生“先学” ,用“前...
考点46 随机抽样、用样本估计总体、变量间的相关关系、...
考点 46 一、选择题 随机抽样用样本估计总体、变量间的 相关关系、统计案例 ...中 位数则需要确定第 8 个数与第 9 个数的平均值,然后再比较大小 【解析】...
第34课时 随机抽样与用样本估计总体
第34 课时一、选择题。 随机抽样与用样本估计总体 ...那么从高三学生中抽取的人数为( A. 7 B. 8 ) ...甲乙两组统计数据用下面茎叶图表示,设甲乙两组数据...
统计.02用样本估计总体(A级).学生版
统计.01统计(B级).学生版... 统计.01随机抽样(...1 of 19 高中数学.概率 02 用样本估计总体(A 级...据有关报道,2009 年 8 月 15 日至 8 月 28 ...
统计.01随机抽样(A级)学生版
随机抽样 系统抽样 分成抽样 用样本的频率估计总体的...统计 01 随机抽样(A 级).学生版 Page 1 of 12...按编号顺序平均分成 20 组(1~8 号,9~16 号,...
10.1统计调查(第2课时)
述和分析样本数据,通过分析样本数据来估计总体的情况.通过问题 2 学习,学生经历了 一个利用抽样调查处理数据、解决问题的统计过程,对抽样调查的必要性、样本的...
随机抽样与用样本估计总体
年第 10 期 随机抽样与用样本估计总体统计中的...用分层抽样的方法从该年级全体学生中抽取 一个容量...随机抽样用样本估计总体 6人阅读 8页 2下载券 随机...
更多相关标签: