当前位置:首页 >> 数学 >>

第11讲 简单线性回归


简单线性回归
Linear regression

?

回归是设法找出变量间在数量上 的依存变化关系, 用函数表达式 表达出来,这个表达式称之为回 归方程。

两变量间的关系
?

确定性关系:两变量间的函数关系
圆的周长与半径的关系: C=2?R 速度、时间与路程

的关系:L=ST X与Y的函数关系: Y=a+bX

?

非确定性关系:两变量在宏观上存在关系, 但并未精确到可以用函数关系来表达。

青少年身高与年龄的关系; 身高与体重的关系:标准体重(kg)=身高(cm)-105 药物浓度与反应率的关系;

一、线性回归的概念
?

当两个变量存在准确、严格的直线关系时,可以用 Y=a+bX,表示两者的函数关系。 其中X 为自变量(independent variable);Y是因变量 ( dependent variable )。 但在实际生活当中,由于其它因素的干扰,许多双变量之 间的关系并不是严格的函数关系,不能用函数方程来准确 反映,为了区别于两变量间的函数方程,我们称这种关系 为回归关系,用直线方程来表示这种关系称为回归直线或 线性回归。 ? Y ? a ? bx

?

?

小插曲:为什么叫”回归“?

F. Galton

K.Pearson

二、回归参数的估计
? Y ? a ? bx
?

? 式中的Y 是由自变量X推算应变量Y的估计值,a是回归直 线在Y 轴上的截距;b为样本的回归系数,即回归直线的 斜率,表示当X变动一个单位时,Y平均变动b个单位。
计算原理:最小二乘法,即保证各实测点到回归直线的纵 向距离的平方和最小,并使计算出的回归方程最能代表实 测数据所反映出的直线趋势。

?

??

? Y ?Y

? ? ? ?Y ? ? a ? bX ?? ? ?
2

2

? ( X ? X )(Y ? Y ) ? l b? l ?(X ? X )
2

XY XX

a ? Y ? bX

例12-1 某医师为了研究正常成年男性的运动 后最大心率与年龄的关系,测得20名正常成年男 性的有关数据,散点图如下。
200 190 180 170 160 150 140 130 34 36 38 40 42 44 46 48 50 年龄

心率

年龄与运动后最大心率的回归方程
X=41.8 l XX = 381.2 Y = 166.8 lYY = 4477.2 lXY = - 1226.8

l XY - 1226.8 b= = = - 3.218 l XX 381.2
a = 166.8-(-3.218)? 41.8 301.3124

? Y = 301.3124 - 3.218 X

回归系数和回归方程的意义及性质

? ? a ? bX Y
? ? ? ?

b 的意义 a 的意义 ? Y 的意义
? Y-Y 的意义

?

??
n i ?1

? Yi -Yi

?

2

的意义

b 的意义
?

斜率(slope)

?

? Y =301.3124 -3.218 X

?

?

年龄每增加 1 岁,其运动后最大心率 平均减少 3.218(次/分钟) b 的单位为 (Y的单位/X的单位)

b is the regression coefficient and the slope of
the line 。
b>0 , y increase with
the increase of X
Y b>0

b<0 , y decrease with
the increase of X

b=0

, no linear correlation between two variables.
0

b=0

b<0 X

statistical significance of b :when X changed a unit , the Y changed b units on average.

a 的意义
? ? a ? bX Y
?
? ? ?

a 截距(intercept, constant) X=0 时,Y的估计值 a的单位与Y值相同 当X可能取0时,a才有实际意义。

? 估计值 Y 的意义
?

? ?

X=46时, 即年龄为 46岁 的正常成年男性, 其平均运动后最 大心率估计值为 153.2844 (次/分钟); 给定X时,Y的估计值。 当 X ? X 时, ? Y Y
?

? Y =153.2844,

? Y ?Y
?

的意义
为残差:实测点到回归直线的纵向距离。

? Y ?Y
6.5

6.0

5.5

5.0 11 12 13 14 15 16

? (Y ? Y ) 2 ?

的意义

? ? ?

残差平方和 (residual sum of squares). 综合表示点距直线的纵向距离。 在所有的直线中,回归直线的残差平方和是最 小的。(最小二乘)

三、总体回归系数的假设检验
?

与直线相关一样,直线回归方程也是从样本资料
计算而得的,同样也存在着抽样误差问题。所以,

需要对样本的回归系数b进行假设检验,以判断b
是否从回归系数为零的总体中抽得。总体的回归

系数用β表示。

一般步骤
1.

2.

3. 4.

H0:β=0 回归方程无意义 H1:β≠0 回归方程有意义 α=0.05 选择合适的假设检验方法(方差分析或t检 验),计算统计量 计算概率值P 做出推论:统计学结论和专业结论

方差分析法

因变量总变异的分解
P
(X,Y)

?

Y
(Y ? Y )
?
?

Y

(Y ? Y)

(Y ? Y)
Y

Y

X

Y的总变异分解
?

未引进回归时的总变异:

? (Y ? Y )
?

2

(sum of squares about the mean of Y)
?

(Y ? Y )2 引进回归以后的变异(剩余): ?
(sum of squares about regression)

?

(Y ? Y ) 回归的贡献,回归平方和: (sum of squares due to regression)

?

?

2

Y的总变异分解

? ?Y ? Y ?

2

?? ?? ? ? ? ? ?Y ? Y ? ? ? ?Y ? Y ? ? ? ? ? ? ? ? ?

2

2

SS总 ? SS回 ? SS剩

? 总 ? ?回 ? ? 剩

剩余标准差
sY ? X ?

??

? Y ?Y

?

2

n?2

(1) 扣除了X的影响后Y方面的变异; (2) 引进 回归方程后, Y方面的变异。

?

回归系数检验的基本思想
?

如果X与Y无线性回归关系,在SS回归和 SS剩余都是其他随机因素对Y的影响,由 此,MS回归≈MS剩余,总体回归系数 β=0,反之, β ≠ 0。所以用F检验对X 与Y之间有无回归关系进行检验。

公式
SS总 ? ? Y ? Y
? SS回归 ? ? Y ? Y

?

? ? ?Y
2
2 lxy

2

? ?Y ? ?
n

2

?

?

2

? blxy ?

lxx

SS剩余 ? SS总 ? SS回归
v总 ? n ?1
MS回归 ? SS回归 v回归 F? MS回归 MS剩余

v回归 ? 1
MS剩余 ?

v剩余 ? n ? 2
SS剩余 v剩余

H0:β=0
H1:β≠0 α=0.05

SS总 ? ? (Y ? Y ) 2 ? 4477.2
? SS回归 ? ? (Y ? Y ) 2 ? 39481591

SS剩余 ? SS总 ? SS回归 ? 529.0409 F? MS回归 MS剩余 ? SS回归 / v回归 SS剩余 / v剩余 ? 134.3313

查F界值表,F0.05(1,18)=4.41,F> F0.05(1,18) ,P<0.05,拒绝H0

t检验法
tb ? sb
v ? n?2

b ?0

sb ?

S y, x l xx

?

SS剩余 / v剩余
? (X ? X )
2

Sb是样本回归系数的标准误

? ? ?

H 0: ?=0, H 1: ?≠0, ? =0.05。

?

(Y - Y? ) =529.0409,

2

sY . X =

529.0409 = 5.4214 20 - 2

5.4214 sb = = 0.2777 381.2 - 3.218 tb = = - 11.588, 0.2777

v = 18,

P < 0.001

年龄与运动后最大心率间存在回归关系。

决定系数 (coefficient of determination)
?

R 2 取值在0到1之间,反映了回归贡献的相对程

度。

SS回 R ? SS总
2

?

决定系数除了作为回归拟合效果的概括统计量, 还可利用它对回归方程做假设检验。
MS回 R2 k F? ? (1 ? R2 ) (n ? 2) MS剩

四、回归问题的区间估计
?

回归系数的可信区间估计
估计值 Y 的可信区间估计 个体Y值的容许区间估计
?

?

?

总体回归系数 ? 的可信区间估计
?

根据 t 分布原理估计:

b?0 tb ? , sb

? ? n?2

b ? t? ,n? 2 sb
?

-3.218±2.101×0.2777=-3.8014~-2.6346

?Y 的可信区间估计 ? 总体回归线的95%置信带
样本 Y的总平均 给定X时Y的平均
?

总体

Y
?

? ?
?

Y

Y

根据 t 分布原理:
Y ? t? ,n? 2 s ? ? Y ? t? ,n? 2 sY . X
Y ? ?

(Y的条件均数)
1 ( X ? X )2 ? 2 n ?(X ? X )

?Y 的容许区间估计

个体Y值的容许区间
?

给定 X 时 Y 的估计值是 Y 的均数 ? Y的一个估计。 给定X 时 Y 值的容许区间是 Y 值的可能范围。

?

?

?Y
?

的100(1-? )%容许限:
?

Y ? t? ,n? 2 sY ? Y ? t? ,n? 2 sY . X

1 ( X ? X )2 1? ? n ? ( X ? X )2

?Y 的可信区间与Y的容许区间 ?
?

可信区间是针对条件均数的,而容许区间是针对Y的取值范围 的。
? X=46时,?Y 的可信区间为:149.7501~156.8187(次/分),

?

表示:年龄为46岁的男子,估计其运动后最大心率为 153.2844,95%可信区间为(149.7501,156.8187 )(次/分),
?

X=46时,Y的容许区间为:141.7543~164.8145 (次/分), 表示:年龄为46岁的男子, 估计有95%的人其运动后最大心 率在141.7543~164.8145 (次/分)之间。

可信区间与容许区间示意
(confidence band & tolerance band)
7.0 6.5
6.0 5.5

5.0
4.5 11 12 13 14 15 16

五、残差分析

线性回归的应用条件(LINE):
? ?

(1)线性(linear) (2)独立(independent)

?
?

(3)给定X时,Y正态分布(normal)
(4)等方差(equal variance) 可通过散点图、残差图等方法来判断数据是否满足 这些条件。

给定X时,Y是正态分布、等方差示意图

给定X时,Y是正态分布、不等方差示意图

残差及残差分析
?

? 残差是指观察值Yi与预测值 Yi 之间的差值, 其表达式为:

? ei ? Yi ? Yi
? ?

它反映了方程拟合数据优劣的信息。 残差分析(residual analysis)旨在通过残 差深入了解数据与方程之间的关系,评价 实际资料是否符合回归方程的假设,识别 离群值等。

残差图
? ?

标准残差:(残差-均值)/标准差 以自变量(或因变量)为横坐标,标准残差为 纵坐标,构成的散点图称之为残差图。

?

运动后最大心率Y和回归残差图

残差图示意图

残差图示意图含义
? ? ? ? ?

?

以上给出几种以自变量取值为横坐标、以标准 化残差为纵坐标的残差图的常见类型。 在此残差图中: 情况(a)、情况(b)和情况(f)表示残 差不满足等方差的条件; 情况(c)显示存在非线性关系; 情况(d)显示有点处于?2倍标准差以外, 可能是离群值; 只有情况(e)显示残差呈随机分布,满足 回归条件。

六、线性回归分析的注意事项
1.进行相回归分析要有实际意义。 2.充分利用散点图。

3.在回归分析中要求因变量Y是随机变量,服从正态 分布,自变量X可以是随机变量也可以是给定的 变量。
4.自变量的选择: 因果中的因、容易测量的、变异小 的。

4.注意线性回归模型的应用条件:LINE 5.建立回归方程后,须对回归系数进行假设检验。

6.使用回归方程估计时,在建立方程时的自变量 的取值范围内。

七、 线性相关和回归的 区别和联系

联系: 1.b和r符号一致 2.b和r的检验是等价的 3.用回归解释相关
SS回 r ? SS总
2

tb ? tr ? F

区别
1.资料要求不同:回归要求y服从正态分布,x是可以 精确测量和严格控制的变量,一般称为Ⅰ型回归; 相关要求两个变量服从双变量正态分布。这种资料 若进行回归分析称为Ⅱ回归,可计算两个方程。
? ? ? ?

I型回归:X是精确控制的; II型回归:X是随机的。
? 由X推算Y: Y ? aY . X ? bY . X X ? 由Y推算X: X ? a X .Y ? bX .Y Y

2.研究目的不同:回归用来说明两变量数量上的依存 变化关系,相关说明变量间的相关关系。

小结
?

简单线性回归是研究两个变量间线性关系的数量表 达式。根据最小二乘法原则,计算回归方程。 进行简单线性回归分析需要满足线性、独立 、正 态 与等方差4个条件。 在简单线性回归分析中,对回归方程的检验等价于

?

?

对回归系数的假设检验,可通过方差分析或t检验 完成。

案例
?

原文题目《高效毛细管电泳法测定血浆 中布比卡因的浓度》,采用毛细管电泳 法,于0.5ml空白血浆中分别加入0.05, 0.1,0.2,0.3,0.4,0.5μg的布比卡因 进行测定,原作者以样品峰的峰面积与 内标峰的峰面积之比(Y)对样品量(X) 进行相关分析,线性关系良好( r>0.99)

习题
? 1.在简单线性回归分析中,得到回归系数为0.30,经检验有统计学意义,说明( ) A.Y增加一个单位,X平均减少30% B. X增加一个单位,Y平均减少30% C. X增加一个单位,Y平均减少0.30个单位 D. Y增加一个单位,X平均减少0.30个单位 E.X对Y的影响在变异的30%

? 2.对两个定量变量同时进行了线性相关和线性回归分 析,r有统计学意义,则( ) A.b无统计学意义 B. b有高度统计学意义 C.b有统计学意义 D. 不能肯定b有无统计学意义 E.a有统计学意义 ? 3.最小二乘估计方法的本质要求是( ) A.各点到直线的垂直距离的和最小 B.各点到x轴的纵向距离的平方和最小 C.各点到直线的垂直距离的平方和最小 D.各点到直线的纵向距离的平方和最小 E.各点到直线的纵向距离的平方和最大


相关文章:
SPSS实验简单线性回归分析11
统计专业实验简单线性回归分析(第十一个实验报告) 简单线性回归分析(第十一个实验报告)实验数据: 期中成绩 93 62 84 89 94 93 94 82 86 75 72 76 91 83 ...
第11讲 课后练习
第11讲 课后练习_其它_职业教育_教育专区。咨询师 一、单选题: 1、投资项目...关于一元线性回归的预测顺序正确的是() A 输入历史统计数据→回归检验→预测...
统计学第11章 一元线性回归
统计学第11章 一元线性回归_经济学_高等教育_教育专区。第 11 章 一元线性...或者说,在不良贷款取值的变差中,有 71.16%是由不良贷款与贷款余额决定的。 ...
统计学第十一章一元线性回归课后作业
统计学第十一章一元线性回归课后作业_理学_高等教育_教育专区。统计学课后作业第十一章 一元线性回归 1. 1.(1)产量与生产费用之间正的线性相关关系。 (2) r ...
第11讲 向量及其线性相关性
(教学章、节或主题) : 第十一讲 向量组及其线性组合 教学目的、要求(分掌握、熟悉、了解三个层次) : 掌握向量组线性相关与线性无关的定义;熟悉向量组线性相关...
第11章 一元线性回归
第11 章 一元线性回归 三、选择题 1.具有相关关系的两个变量的特点是 ()。A. 一个变量的取值不能由另一个变量唯一确定 B. 一个变量的取值由另一个变量...
第九章 相关与简单线性回归分析
第九章 第一节 一、变量间的相互关系 相关与简单线性回归分析 相关与回归的基本概念 现象之间存在的依存关系包括两种: 确定性的函数关系和不确定性的统计关 系,...
第11章 多重线性回归分析思考与练习参考答案
第11章 多重线性回归分析思考与练习参考答案_理学_高等教育_教育专区。第 11 ...( C A. 复相关系数 D. 偏回归系数 B. 简单相关系数 E. 偏相关系数 )。...
第十一章 线性相关分析与线性回归分析
第十一章 线性相关分析与线性回归分析 11.1 两个变量之间的线性相关分析相关分析是在分析两个变量之间关系的密切程度时常用的统计分析方法。 最简单的相关 分析是...
第10章 简单线性回归分析思考与练习参考答案
第10章 10章 简单线性回归分析 简单线性回归分析 思考与练习参考答案一、最佳选择题 最佳选择题 1.如果两样本的相关系数 r1 = r2 ,样本量 n1 = n2 ,那么( ...
更多相关标签:
简单线性回归 | 简单线性回归模型 | 简单线性回归分析 | spss简单线性回归分析 | spss简单线性回归 | 简单线性回归方程 | excel 简单线性回归 | 简单线性回归讲解 |