当前位置:首页 >> >>

2018版高考数学大一轮复习第十章统计与统计案例10.3变量间的相关关系统计案例课件文新人教版_图文

§10.3 变量间的相关关系、统计案例

内容索引

基础知识 题型分类

自主学习 深度剖析

课时作业

基础知识

自主学习

知识梳理

1.两个变量的线性相关 (1)正相关

在散点图中,点散布在从 左下角 到 右上角 的区域,对于两个变量的
这种相关关系,我们将它称为正相关.

(2)负相关
在散点图中,点散布在从 左上角到 右下角 的区域,两个变量的这

种相关关系称为负相关.
(3)线性相关关系、回归直线

如果散点图中点的分布从整体上看大致在 一条直线附近,就称这两
个变量之间具有线性相关关系,这条直线叫做回归直线.

2.回归方程 (1)最小二乘法 求回归直线,使得样本数据的点到它的 距离的平方和最小 的方法叫 做最小二乘法. (2)回归方程

方程y =b x+a 是两个具有线性相关关系的变量的一组数据 (x1,y1), ^ 是待定参数. (x2,y2),?,(xn,yn)的回归方程,其中 ,^ a ,b
^ ^ ^

? ( x ? x)( y ? y )
i ?1 i i n ? 2

n

?

?

?(x ? y ) ? n x y
i ?1 i i n 2 ? 2 i ?1 i

n

? ?

( x i ? x) ? nx ? ? ? x b = ________________ = ________________ ? i ?1 ? ? ? ? ?^ ?x y ? b ? ?a =___________.

^

3.回归分析 (1)定义:对具有 相关关系 的两个变量进行统计分析的一种常用方法. (2)样本点的中心 对于一组具有线性相关关系的数据(x1,y1),(x2,y2),?,(xn,yn), 其中 ( x , y ) 称为样本点的中心. (3)相关系数 当r>0时,表明两个变量 正相关 ; 当r<0时,表明两个变量 负相关 .

r的绝对值越接近于1,表明两个变量的线性相关性 越强 . r的绝对值越接近于0,表明两个变量之间 几乎不存在线性相关关系 . 通常|r|大于 0.75 时,认为两个变量有很强的线性相关性.

4.独立性检验 (1)分类变量:变量的不同“值”表示个体所属的 不同类别 ,像这类变量
称为分类变量.

(2)列联表:列出两个分类变量的 频数表 ,称为列联表.假设有两个分类
变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联

表(称为2×2列联表)为

2×2列联表 y1 y2 总计

x1
x2

a
c

b
d

a+b
c+d

总计

a+c

b+d

a+b+c+d

构造一个随机变量K2=

n?ad-bc?2 ?a+b??c+d??a+c??b+d? ,其中n=

a+b+c+d 为样本容量.

(3)独立性检验
利用随机变量 K2来判断“两个分类变量 有关系 ”的方法称为独立性

检验.

思考辨析 判断下列结论是否正确(请在括号中打“√”或“×”) (1) 相关关系与函数关系都是一种确定性的关系 ,也是一种因果关 系.( × ) (2)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关 关系.( √ ) (3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( √ )

(4)某同学研究卖出的热饮杯数y与气温x(℃)之间的关系,得回归方程

y =-2.352x+147.767,则气温为2℃时,一定可卖出143杯热饮.( × )
(5) 事件 X , Y 关系越密切,则由观测数据计算得到的 K2 的观测值越 大.( √ ) (6)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有 关,某人数学成绩优秀,则他有99%的可能物理优秀.( × )

^

考点自测

1.(2015· 湖北)已知变量x和y满足关系 y=-0.1x+1,变量y与z正相关.

^

下列结论中正确的是

答案

解析

A.x与y正相关,x与z负相关

B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关

D.x与y负相关,x与z正相关

2.(教材改编)下面是2×2列联表:则表中a,b的值分别为 y1 y2

答案

解析

合计

x1
x2

a
22

21
25

73
47

合计
A.94,72 B.52,50

b
C.52,74

46
D.74,52

120

∵a+21=73,∴a=52.又a+22=b,∴b=74.

3.(2017· 重庆质检)已知变量 x 与 y 正相关,且由观测数据算得样本平均 数 x =3, y =3.5,则由该观测数据算得的线性回归方程可能是
答案
^

解析

A.y=0.4x+2.3 C.y=-2x+9.5
^

B.y=2x-2.4 D.y=-0.3x+4.4
^

^

因为变量x和y正相关,则回归直线的斜率为正,故可以排除选项C和D.
因为样本点的中心在回归直线上,把点(3,3.5)分别代入选项A和B中的直

线方程进行检验,可以排除B,故选A.

4.(2017· 湖南三校联考 ) 某产品在某零售摊位的零售价 x( 单位:元) 与每
天的销售量y(单位:个)的统计资料如下表所示: x y 16 50
^ ^

17 34
^ ^

18 41

19 31

由上表可得线性回归方程 y=bx+a中的b=-4 ,据此模型预测零售价 为15元时,每天的销售量为 A.51个 B.50个
答案 解析

C.49个

D.48个

由题意知 x =17.5, y =39,代入线性回归方程得 a=109,109-15×4=49,故选 C.
^

5.(2016· 玉溪一中月考)利用独立性检验来判断两个分类变量X和Y是否
有关系,通过查阅下表来确定“X和Y有关系”的可信度.为了调查用

电脑时间与视力下降是否有关系,现从某地网民中抽取100位居民进
95 行调查 . 经过计算得 K2≈3.855 ,那么就有 ________% 的把握认为用电

脑时间与视力下降有关系. P(K2≥k0)
k0

答案

解析

0.05
3.841

0.025
5.024

0.010
6.635

0.005
7.879

0.001
10.828

根据表格发现3.855>3.841,3.841对应的是0.05,所以根据独立性检验
原理可知有95%的把握认为用电脑时间与视力下降有关系.

题型分类

深度剖析

题型一 相关关系的判断 例1 (1)四名同学根据各自的样本数据研究变量x,y之间的相关关系,
^ ^ ^ ^

并求得线性回归方程,分别得到以下四个结论:

①y 与 x 负相关且y=2.347x-6.423; ②y 与 x 负相关且y=-3.476x+5.648; ③y 与 x 正相关且y=5.437x+8.493; ④y 与 x 正相关且y=-4.326x-4.578.
其中一定不正确的结论的序号是 A.①② B.②③
答案 解析

C.③④

D.①④

(2)x和y的散点图如图所示,则下列说法中所 ①② 有正确命题的序号为_____.
①x,y是负相关关系;
②在该相关关系中, 若用 y=c1
^ ^

答案

解析

e

c2 x

拟合时的相关系数的平方为

^ 2 r1, 用y =

2 2 bx+a拟合时的相关系数的平方为 r2 ,则 r 2 1>r2;

③x、y之间不能建立线性回归方程.

思维升华
判定两个变量正、负相关性的方法 (1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的 分布从左上角到右下角,两个变量负相关. (2)相关系数:r>0时,正相关;r<0时,负相关.

(3)线性回归方程中:b >0 时,正相关;b <0 时,负相关.

^

^

跟踪训练1

(1)在一组样本数据(x1,y1),(x2,y2),?,(xn,yn)(n≥2,
答案 解析

x1,x2,?,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,?,
1 n)都在直线y=2 x+1上,则这组样本数据的样本相关系数为 1 A.-1 B.0 C. 2 D.1

所有点均在直线上,则样本相关系数最大,即为1,故选D.

(2)变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4), (13,5) ; 变 量 U 与 V 相 对 应 的 一 组 数 据 为 (10,5) , (11.3,4) , (11.8,3) , (12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与 U之间的线性相关系数,则 A.r2<r1<0 C.r2<0<r1
答案 解析

B.0<r2<r1 D.r2=r1

对于变量 Y 与 X 而言, Y 随 X的增大而增大,故 Y 与 X正相关,即 r1 > 0 ;

对于变量V与U而言,V随U的增大而减小,故V与U负相关,即r2<0,
故选C.

题型二 线性回归分析

例2

(2016· 全国丙卷)下图是我国2008年至2014年生活垃圾无害化处理

量(单位:亿吨)的折线图.

注:年份代码17分别对应年份2008-2014. (1) 由折线图看出,可用线性回归模型拟合 y 与 t 的关系,请用相关系数 加以说明; 解答

(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾 无害化处理量. 附注:
7 7 7

参考数据: ?yi=9.32, ?tiyi=40.17,
i=1 i=1
n

i=1

? ?yi- y ? =0.55, 7≈2.646.
2

i=1

? ?ti- t ??yi- y ?

n n

参考公式:相关系数 r=
i=1 2 2 ? t - t ? ? y - y ? ? i ? i i=1

回归方程y=a+bt 中斜率和截距的最小二乘估计公式分别为:

^

^

^

b=

^

i=1

? ?ti- t ??yi- y ?
2 ? t - t ? ? i n

n

,a= y -b t .

^

^

i=1

解答

思维升华
线性回归分析问题的类型及解题方法 (1)求线性回归方程 ①利用公式,求出回归系数 b,a. ②待定系数法:利用回归直线过样本点的中心求系数. (2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值.
^. (3)利用回归直线判断正、负相关;决定正相关还是负相关的是系数b

^

^

(4)回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于1时, 两变量的线性相关性越强.

跟踪训练 2

(2015· 课标全国 Ⅰ) 某公司为确定

下一年度投入某种产品的宣传费,需了解年宣 传费 x( 单位:千元 ) 对年销售量 y( 单位: t) 和年 利润 z( 单位:千元 ) 的影响,对近 8 年的年宣传 费xi和年销售量yi(i=1,2,?,8)数据作了初步 处理,得到下面的散点图及一些统计量的值.

x

y

w

i=1

? (xi- x ) ? (wi- w )
2 i=1

8

8

2

i=1

? (xi- x )·

8

i=1

? (wi- w )·

8

(yi - y )

(yi- y )

46.6 563 6.8

289.8

1.6

1 469

108.8

18 表中 wi= xi, w =8 ?wi.
i=1

(1)根据散点图判断, y=a+bx 与 y=c+d x哪一个适宜作为年销售量 y 关于年宣传费 x 的回归方程类型?(给出判断即可,不必说明理由)
解答

由散点图可以判断, y=c+d x适宜作为年销售量 y 关于年宣传费 x 的 回归方程类型.

(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程; 解答

令 w= x,先建立 y 关于 w 的线性回归方程,由于
i=1

? yi - y ? ? ?wi- w ?·

8

d =

^

i=1

? ?wi- w ?
^

8

2

108.8 = 1.6 =68,

c = y -d w =563-68×6.8=100.6,
所以 y 关于 w 的线性回归方程为y =100.6+68w,
因此 y 关于 x 的回归方程为y =100.6+68 x.
^

^

^

(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果 回答下列问题: ①年宣传费x=49时,年销售量及年利润的预报值是多少? 解答

由(2)知,当 x=49 时,

年销售量 y 的预报值y =100.6+68 49=576.6,
年利润 z 的预报值z =576.6×0.2-49=66.32.
^

^

②年宣传费x为何值时,年利润的预报值最大? 解答

附:对于一组数据(u1,v1),(u2,v2),?,(un,vn),其回归直线v=α+ βu 的斜率和截距的最小二乘估计分别为
^

^

^

β=

^

i=1

? ?ui- u ??vi- v ? ? ?u i - u ?2
n

n

,α= v -β u .

^

^

i =1

题型三 独立性检验 例3 (2016· 福建厦门三中模拟)某大型企业人力资源部为了研究企业员

工工作积极性和对待企业改革的关系,随机抽取了100名员工进行调查,
其中支持企业改革的调查者中,工作积极的有46人,工作一般的有35

人,而不太赞成企业改革的调查者中,工作积极的有4人,工作一般的
有15人.

(1)根据以上数据建立一个2×2列联表; 解答

(2)对于人力资源部的研究项目,根据以上数据是否可以认为企业的全体

员工对待企业改革的态度与其工作积极性有关系?
2 2

解答

n?ad-bc? 参考公式:K = (其中 n=a+b+c+d) ?a+b??c+d??a+c??b+d?
P(K2
≥k0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001

k0

0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828

思维升华
(1)比较几个分类变量有关联的可能性大小的方法 ①通过计算K2的大小判断:K2越大,两变量有关联的可能性越大. ②通过计算|ad-bc|的大小判断:|ad-bc|越大,两变量有关联的可能性 越大. (2)独立性检验的一般步骤 ①根据样本数据制成2×2列联表.
2 n ? ad - bc ? ②根据公式 K2= 计算 K2 的观测值 k. ?a+b??a+c??b+d??c+d?

③比较k与临界值的大小关系,作统计推断.

跟踪训练 3

(2017· 衡阳联考 )2016 年 9 月 20 日是第 28 个全国爱牙日,为

了迎接此节日,某地区卫生部门成立了调查小组,调查 “ 常吃零食与 患龋齿的关系”,对该地区小学六年级800名学生进行检查,按患龋齿 和不患龋齿分类,并汇总数据:不常吃零食且不患龋齿的学生有 60 名, 常吃零食但不患龋齿的学生有 100 名,不常吃零食但患龋齿的学生有 140名. (1)能否在犯错误的概率不超过0.001的前提下,认为该地区学生常吃零 食与患龋齿有关系? 解答

(2)4 名卫生部门的工作人员随机分成两组,每组 2 人,一组负责数据
收集,另一组负责数据处理,求工作人员甲分到收集数据组,工作人

员乙分到处理数据组的概率.

解答

2 n ? ad - bc ? 附:K2= ?a+b??c+d??a+c??b+d?

P(K2≥k0) k0

0.010 6.635

0.005 7.879

0.001 10.828

思想与方法系列21

求线性回归方程的方法技巧

典例

(12分)某地最近十年粮食需求量逐年上升,下表是部分统计数据:

年份
需求量/万吨

2006
236

2008
246

2010
257

2012
276
^ ^

2014
286
^

(1)利用所给数据求年需求量与年份之间的线性回归方程 y=bx+a ;
(2)利用(1)中所求出的线性回归方程预测该地2016年的粮食需求量.
思想方法指导 规范解答

课时作业

1.(2016· 衡水质检)具有线性相关关系的变量x,y满足一组数据如下表所 3 ^ 示.若y与x的线性回归方程为 y=3x- ,则m的值是 答案 解析 2 x y
A.4 √ 9 B.2

0 -1
C.5

1 1

2 m
D.6

3 8

3 m 由已知得 x =2, y = 4 +2, 3 ^ 又因为点( x , y )在直线y=3x-2上, m 3 3 所以 4 +2=3×2-2,得 m=4.
1 2 3 4 5 6 7 8 9 10

2.(2016· 湖南师大附中月考)已知x,y的取值如下表: x y 0 1.3 1 1.8 4 5.6 5 6.1 6 7.4
^

8 9.3
^

从所得散点图中分析可知:y 与 x 线性相关,且y =0.95x+a ,则 x=13 时,y 等于
A.1.45
答案 解析



B.13.8

C.13

D.12.8

1

2

3

4

5

6

7

8

9

10

3.(2017· 泰安月考)为了普及环保知识,增强环保意识,某大学从理工类 专业的A班和文史类专业的B班各抽取20名同学参加环保知识测试.统计 得到成绩与专业的列联表:

优秀
A班 14

非优秀
6

总计
20

B班
总计

7
21

13
19

20
40

1

2

3

4

5

6

7

8

9

10

附:参考公式及数据:
2 n ? ad - bc ? (1)统计量:K2= (n=a+b+c+d). ?a+b??c+d??a+c??b+d?

(2)独立性检验的临界值表:
P(K2≥k0) 0.050 0.010

k0

3.841

6.635

1

2

3

4

5

6

7

8

9

10

则下列说法正确的是

答案

解析

A.有99%的把握认为环保知识测试成绩与专业有关 B.有99%的把握认为环保知识测试成绩与专业无关 C.有95%的把握认为环保知识测试成绩与专业有关 √ D.有95%的把握认为环保知识测试成绩与专业无关
2 40 × ? 14 × 13 - 7 × 6 ? 因为 K2= ≈4.912, 20×20×21×19

3.841<K2<6.635,所以有95%的把握认为环保知识测试成绩与专业有关.
1 2 3 4 5 6 7 8 9 10

4.设某大学的女生体重 y(单位:kg)与身高 x(单位:cm)具有线性相关关 系,根据一组样本数据(xi,yi)(i=1,2,?,n),用最小二乘法建立的回 归方程为y =0.85x-85.71,则下列结论中不正确的是
A.y 与 x 具有正的线性相关关系 B.回归直线过样本点的中心( x , y ) C.若该大学某女生身高增加 1 cm,则其体重约增加 0.85 kg
^

答案

解析



D.若该大学某女生身高为 170 cm,则可断定其体重必为 58.79 kg

1

2

3

4

5

6

7

8

9

10

5. 有甲、乙两个班级进行数学考试,按照大于等于 85 分为优秀, 85 分 以下为非优秀统计成绩,得到如下所示的列联表: 优秀 甲班 乙班 合计 附: 10 c 非优秀 b 30 总计

P(K2≥k0)
k0

0.05
3.841

0.025
5.024
1 2

0.010
6.635
3 4 5 6

0.005
7.879
7 8 9 10

2 已知在全部 105 人中随机抽取 1 人,成绩优秀的概率为7,则下列说法 正确的是 答案
解析

A.列联表中c的值为30,b的值为35
B.列联表中c的值为15,b的值为50

C.根据列联表中的数据,若按97.5%的可靠性要求,能认为“成绩与 √
班级有关系”

D.根据列联表中的数据,若按97.5%的可靠性要求,不能认为“成绩
与班级有关系”
1 2 3 4 5 6 7 8 9 10

6.已知数组(x1, y1), (x2, y2), ?, (x10, y10)满足线性回归方程y=bx+a, x1+x2+?+x10 则“(x0,y0)满足线性回归方程y=bx+a”是“x0= , 10
^ ^ ^

^

^

^

y1+y2+?+y10 y0= ” 的 10

答案

解析

A.充分不必要条件
C.充要条件
^ ^ ^



B.必要不充分条件
D.既不充分也不必要条件
^ ^ ^ ^

x0, y0 为这 10 组数据的平均数, 根据公式计算线性回归方程y=bx+a的 b以后,再根据a= y -b x ( x , y 为样本平均数)求得a. 因此( x ,y )一定满足线性回归方程, 但满足线性回归方程的除了( x ,y ) 外,可能还有其他样本点.
1 2 3 4 5 6 7 8 9 10

②③ 7.以下四个命题,其中正确的序号是________. 品进行某项指标检测,这样的抽样是分层抽样;

答案

解析

①从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产 ②两个随机变量相关性越强,则相关系数的绝对值越接近于1; ③在线性回归方程y =0.2x+ 12中,当解释变量x每增加一个单位时, 预报变量 y 平均增加0.2个单位; ④对分类变量X与Y的随机变量K2的观测值k来说,k越小,“X与Y有关 系”的把握程度越大. ①是系统抽样;对于④,随机变量 K2 的观测值 k越小,说明两个相关 变量有关系的把握程度越小.
1 2 3 4 5 6 7 8 9 10

^

^

8.(2016· 郑州模拟)对具有线性相关关系的变量 x,y 有一组观测数据(xi, 1 ^ yi)(i=1,2,?,8),其线性回归方程是y =3x+a ,且 x1+x2+x3+?+ 1 ^ 答案 解析 8 x8=2(y1+y2+y3+?+y8)=6,则实数a 的值是________.
^

?3 3? ? 依题意可知样本点的中心为?4,8? ?, ? ?

3 1 3 ^ 1 ^ 则8=3×4+a ,解得a =8.

1

2

3

4

5

6

7

8

9

10

9.某百货公司1~6月份的销售量x与利润y的统计数据如下表: 月份 销售量x(万件) 利润y(万元)
y =b x+a ; 解答
^ ^ ^

1 10 22

2 11 25

3 13 29

4 12 26

5 8 16

6 6 12

(1)根据 2~5 月份的数据,画出散点图,求出 y 关于 x 的线性回归方程

1

2

3

4

5

6

7

8

9

10

(2)若由线性回归方程得到的估计数据与剩下的检验数据的误差均不 超过2万元,则认为得到的线性回归方程是理想的,试问所得线性回 归方程是否理想? 解答
18 30 150 当 x=10 时,y = 7 ×10- 7 = 7 ,
^

150 此时| 7 -22|<2; 18 30 78 78 当 x=6 时,y = 7 ×6- 7 = 7 ,此时| 7 -12|<2.
^

故所得的线性回归方程是理想的.
1 2 3 4 5 6 7 8 9 10

10.某高校共有学生15 000人,其中男生10 500人,女生4 500人,为 调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法, 收集300位学生每周平均体育运动时间的样本数据(单位:小时). (1)应收集多少位女生的样本数据? 解答

4 500 300×15 000=90,
所以应收集90位女生的样本数据.

1

2

3

4

5

6

7

8

9

10

(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分 布直方图 ( 如图所示 ) ,其中样本数据的分组区间为: [0,2) , [2,4) , [4,6),[6,8),[8,10),[10,12],估计该校学生每周平均体育运动时间
解答 超过4小时的概率;

P(K2≥k0) k0

0.10

0.05

0.010 0.005

2.706 3.841 6.635 7.879

1

2

3

4

5

6

7

8

9

10

(3)在样本数据中,有60位女生的每周平均体育运动时间超过 4小时, 请列出每周平均体育运动时间与性别列联表,并判断是否有95%的把 握认为“该校学生的每周平均体育运动时间与性别有关”. 解答
2 n ? ad - bc ? 附:K2= . ?a+b??c+d??a+c??b+d?

P(K2≥k0)
k0

0.10

0.05

0.010 0.005

2.706 3.841 6.635 7.879

1

2

3

4

5

6

7

8

9

10


更多相关标签: