当前位置:首页 >> >>

1. 一元线性回归模型


高级统计方法
周影辉 博士
zyhmaths@163.com

中山大学管理学院市场学系
1

师兄师姐的话
男:生活是一个小小的结构方程模型,努 力是自变量,幸福是因变量,趁这个节日 ,我想告诉您,我愿成为一个小小的调节 变量,祝您幸福每一天!!! 女:我用SPSS对您做回归,得出一条斜率 为正的幸福曲线,再用LISREL对您编程, 发现快乐与您正相关。祝老师您节日愉快 !
2

关于模型的一些哲学思考
Essentially, all models are wrong, but some are useful. ---- G.E.P. Box
http://en.wikiquote.org/wiki/George_E._P._Box

3

Models are abstractions and simplifications of reality. Useful models capture the essence of reality in a way that enhances understanding of phenomena. ---- F.M. Bass
摘自 F.M. Bass. (2004). Comments on "A New Product Growth for Model Consumer Durables": The Bass Model. Management Science. Vol. 50, No. 12, pp. 1833-1840. 第3节第1段
4

几个有趣的例子
Forecast color television sales --- a great success of Bass model
参见: F.M. Bass. (2004). Comments on "A New Product Growth for Model Consumer Durables": The Bass Model. Management Science. Vol. 50, No. 12, pp. 1833-1840. 第2节第2段
5

红楼梦前 80 回与后 40 回某些文风的差异 分析
---- 两个独立二项总体等价性检验的一个应用

结论:前80回与后40回在某些重要的情景 描写(饮食描写、医药描写、诗词描写、 花卉描写、树木描写)上确实存在非常显 著的差异,这一结论的可信概率不低于 98%

6

参见: 韦博成教授,东南大学数学系, 《红楼梦》前 80 回与后 40 回某些文风差 2009(4),441-448

异的统计分析(两个独立二项总体等价性 检验的一个应用),应用概率统计,

或者: http://blog.163.com/shzxqdj/blog/static /81670577200973185819785/

7

1936 年美国总统选举 罗斯福 v.s. 兰登 不当的统计方法的运用导致了选举预测失 败,进而导致了‘Literary Digest’的破产 疑似莎士比亚的一首诗的鉴定 《罗密欧与朱丽叶》的作者之谜 苏联名著《静静的顿河》的作者争议 肖洛霍夫 v.s. 克鲁乌科夫
8

变量的测度等级
科学研究中,用变量来量化概念,但不同 概念能够被量化的程度有所不同。这种量 化程度在统计学中称为变量的 测度等级 (Measurement Level) 变量的测度等级通常划分为四种: 名义(Norminal)测度 次序(Ordinal) 测度 间距(Interval) 测度 比率(Ratio) 测度
9

名义测度
最低等级的测度,也称定名测度 它只代表类型的编码,而这些编码的 数值只是一个符号,数值之间不存在 有意义的量的关系 性别:女 --- 1,1,A,F 男 --- 0,2,B,M 企业类型:国企 v.s 私企
10

次序测度
其量化水平高于名义测度,即其包含的信息量大 于名义测度等级的变量 变量编码不仅具有分类功能,也存在量的关系 温度:低 --- 中 --- 高 1 2 3 虽然可以用 2,4,6 分别表示温度的低,中和高, 但不可以随意调换各类在序列中的位置,即类别 之间是有次序和方向的
11

间距测度
是采用一定单位的实际测量值 两个间距测度变量的差与和都具有数量意 义,而前面两类测度等级不具有这一性质 两个间距测度变量不能进行乘除运算,因 为这一测度等级的变量所取的 0值不是物 理意义上的绝对0值 不能说 10 摄氏度是 5 摄氏度的 2 倍
12

比率测度
最高等级的测度 其0值是非人为制定的 K 温度中的0度 --- 绝对0度 两个比率测度等级的变量的比值是有意义 的
13

小结
前两种 – 分类变量 后两种 – 连续(测量型)变量 测度等级越高,变量所包含的信息越多 较高测度等级的变量可以降级使用,在统 计分析中经常采用降级使用 常见的降级使用方式: 1. 次序测度变量作为名义测度变量使用 2. 比率测度变量作为间距测度变量使用 3. 间距测度变量作为名义测度变量使用
14

现代社会科学研究三要素
理论:管理学的各种理论 观察:为研究取得客观实际材料的过程, 包括应用试验方法、调查方法等 统计: 1. 对观测数据进行统计描述(统计描述) 2. 对多个变量之间的关系进行定量分析 (统计推断) 3. 对理论进行实践检验的一个工具
15

统计在社会科学中的定位
对于社会科学(包括管理学)而言,统计 仅仅是分析问题和研究问题的一个工具, 它不仅需要专业理论的指导,也需要研究 方法论的指导。 因此,你们的目标是要在管理学的理论上 有所创新!然后用统计方法验证你们的理 论 但是,对现代社会科学而言,统计是越来 越重要的,不可缺少的语言和工具!
16

统计研究中的常见谬误
混淆统计联系与因果关系 事后解释谬误 生态学谬误 还原论谬误 混淆统计检验显著与实际意义显著
17

几个问题
学了几个学期的数学和概率统计 ? 一元正态分布? 多元正态分布? 向量和矩阵? 线性回归? 一元方差分析?
18

关于回归
http://en.wikipedia.org/wiki/Regression_analysis

起源于19世纪生物学家F.高尔顿进行的遗传学 研究 发现下一代人身高有回归同时代人类平均身 高的趋势 K.皮尔逊又用观察数据证实了这一现象 回归分析的核心方法 --- 最小二乘法,早在18 世纪就已经被 高斯 应用于行星轨道的测定 在应用统计中,90% 的问题都可以用回归 (包括各种回归模型)来解决
19

多元回归分析是分析一个随机变量和多 个变量之间线性关系的最常用的统计方 法 ------ 如销售量与价格和广告费的关系 变量分为两类:因变量和自变量 因变量必须为连续变量,自变量可以是 连续的也可以是分类变量,或者是两者 的混合 只有一个自变量时,称为一元线性回归 模型
20

变量的关系和回归的任务
变量的关系可以分为两类: 1. 确定的函数关系,如 M = P × Q 2. 统计相关关系。我们可以把握这种关 系的一个总体趋势,但是不能得到一个确 定的关系表达式,因为这个关系受到一些 我们无法得知的随机因素的影响。如体重 和身高的关系。 回归分析就是要寻找在给定自变量的条件 下因变量的概率分布,从而用一种确定的 函数关系近似描述因变量和自变量的不确 定关系。
21

一元线性回归模型
只有一个自变量的回归称为一元(简单) 回归 一般地,我们用大写字母表示总体参数, 用小写字母表示样本统计量 一元线性回归的数学表达式:

ε 未知参数, 是随机误差项 “线性”是指模型关于参数是线性的

(1 ) Y = A + BX + ε A 其中 Y 为因变量,X 为自变量, , B 为

22

例1
表 2-1 列出了我国分地区家庭年人均食 品支出与人均收入的数据。我们感兴趣 的是人均食品支出与他们的人均收入的 关系,因此设食品支出为因变量(Y ), 人均收入为自变量(X ) 由图 2-1 可知 Y 与 X 有较好的线性关系, 因此我们假设在总体中他们满足线性关 系式(1)
23

图 2-1 我国分地区城镇居民年人均食品支出和人均 收入散点图

24

将表 2-1 数据 ( y i , x i ), i = 1 , 2 , L , 30 , 带入方程(1)中,则有

( 2 ) y i = a + bx i + e i , i = 1, 2 , L 30 上式中 e i 为样本随机误差
回归的任务:希望得到能够对观测数据拟 合最优的回归方程估计

( 3 ) y = a + bx 上式称为 y 对 x 的回归方程
25

最小二乘法(OLS)
y 称为 y 的拟合值,它是在 x 给定条件下 y 的条件均值的估计
误差平方和



(ei ) 2 =



( y i yi )2 =



[ y i ( a + bx i )] 2

最小二乘法:求未知参数 a , b 使得上面的 误差 平方和最小。求得的 a , b 即为未知总 体参数 A , B 的最小二乘估计

26

对误差平方和关于 a , b 求导数,并令其等 于0,求关于a , b 的联立方程组,得到

∑ ( x x )( y y ) (4)a = y bx , b = ∑ (x x)
i i 2 i

x 其中 y = y i 30 表示因变量的均值, i =1 的定义类似 由表 2-1 的数据算得 a = 53 . 09 , b = 0 . 42 于是得到拟合 2-1散点图的回归直线



30

y = 53 . 09 + 0 . 42 x

27

SPSS 操作

28

图7-2 “Linear Regression”对话框(一) Regression”对话框 对话框(

图7-3 “Linear Regression:Statistics”对话框 Regression:Statistics”对话框

图7-4 “Linear Regression:Plots”对话框 Regression:Plots”对话框

图7-5 “Linear Regression:Save”对话框 Regression:Save”对话框

图7-6 “Linear Regression:Options”对话框 Regression:Options”对话框

一元回归系数的意义
在回归模型(2)式中,a , b 称为回 归直线的系数 a 是直线在 y 轴上的截距,代表 y 的 基础水平,即自变量取 0 时因变量的 水平 b 是直线的斜率,表示 x 变化一个单 位时,y 的平均变化 在例 1 中,斜率为 0.42,即人均收入 每上升 1 元,人均食品支出平均上升 0.42 元
34

变量变换
当因变量与自变量的关系是非线性时,可以 通过变量变换使经过变换的新变量对于参数 是线性的。 然后基于变换后的变量建立线性回归模型, 基于变换后的数据用最小二乘法求得未知参 数的估计 对于呈非线性相关的变量,通常根据观察数 据的分布形状,采用不同的曲线拟合散点, 最后选择拟合精度最高的曲线作为拟合曲线 常用的拟合曲线和变量变换如 表 2-3 所示
35

模型的假设条件
高斯假设条件:对总体中各次观察的随机 误差 ε i , i = 1, 2 , L , N , 满足如下 4 个条件 (a) 零均值性:即在自变量取一定值的条 件下,总体误差项的条件均值为 0 (b) 等方差性:即在自变量取一定值的条 件下,总体误差项的条件方差为一正常数 (c) 误差项之间的相互独立性:即在自变 量取任意不同值时,相应的误差项之间相 互独立 (d) 误差项与变量之间相互独立性:即自 变量的变化与误差项无关
36

符合上述假设条件的回归模型称为一般线性 回归模型 对于一般线性回归模型,最小二乘估计 a , b 分别是总体参数 A , B 的无偏估计 如果我们的目的只是求未知参数的点估计, 符合上述假设的一般线性回归模型也就足够 了 如果还需估计总体参数的置信区间,或者需 要做假设检验,则需考虑总体误差项的概率 分布
37

正态误差假定: 在高斯假设条件的基础上,假设随机 误差项 ε 服从正态分布,则 (1)定义 的线性模型称为正态误差模型 基于高斯假设,可知N个随机变量

ε i , i = 1, 2 , L , N ,
相互独立且服从同一正态分布

N (0,σ ) 样本统计量 y , y , a , b 也都是服从正态
2

分布的随机变量
38

假设误差项服从正态分布的合理性:
(a) 中心极限定理 (b) 由于模型参数的检验以 t 分布为基 础,误差项如果稍微偏离正态分布,对 参数检验的影响也不会很大(统计上称 为“稳健性”) 线性回归大都采用正态分布的标准假定, 但并不是所有的数据都符合这个假定

39

总体方差的估计
在高斯假设和正态误差假设成立的条件下, 我们用样本拟合误差均方和

s =
2 e
2


2

(ei )

2

(n 2)
2 e 是误差方差的无

作为 σ 的估计 E ( s ) = σ ,即 s 偏估计 s e 称为误差标准误,可以用它作为σ 的 估计
2 e
40

未知参数和 Y 的标准误及区间估计
用 s e 代替 σ,即能根据相应 公式得到总体参数 A , B 和 Y 的标准差σ a , σ b 和σ Y 的估计 s a , sb , sY 完成对总体参数的区间估计 总体参数及其对应的样本估计参见 表2-4 如果实际情况不符合高斯假设条件或正态分布假 设条件,便不能保证 表2-4 中关于总体参数推断 的正确性
41

a, b, y 的标准误 ,通过它们可以 ,他们分别称为

违反假设条件对最小二乘法结果的影响
零均值性假设被违反 等方差性假设被违反 误差项相互独立的假设被违反 误差项与自变量之间相互独立的假设被 违反 总体误差项为正态分布的假设被违反
42

作业
学习、复习初等概率统计知识 1. 一元正态分布 2. 估计和假设检验的基本概念 熟悉 SPSS 界面 下周作业开始计分
43


相关文章:
一元线性回归模型的置信区间与预测
§2.5 一元线性回归模型的置信区间与预测多元线性回归模型的置信区间问题包括参数...二、预测值的置信区间 1、点预测 计量经济学模型的一个重要应用是经济预测。...
第三章 一元线性回归模型
第三章一、预备知识 (一)相关概念 一元线性回归模型 对于一个双变量总体 ( ...在总体回归模型(3.2)中参数 ?0 , ?1 是未知的, ?i 是不可观察的,统计...
第二章 一元线性回归模型
第二章 一元线性回归模型_数学_自然科学_专业资料。第二章 一元线性回归模型 1.中国居民人均消费模型 从总体上考察中国居民收入与消费支出的关系。表 2.1 给出...
(1)用Excel作一元线性回归分析
实验四(1) 用 Excel 作一元线性回归分析 实验名称:回归分析实验目的:学会应用软件实验一元线性回归,多元线性回归和非线性回归模型的 求解及应用模型解决相应地理...
一元线性回归分析报告
方法,熟练运用 Eviews 软件的一元线性回归的操作,并能够对结果进行相应的分析。...图 5 剩余项、实际值、拟合值图形 三、模型检验 1.经济意义检验所 估 计的...
(重点)一元线性回归分析
(重点)一元线性回归分析_金融/投资_经管营销_专业资料。一元线性回归分析 一....回归模型的假定: 回归模型的基本假定: 1.线性假定:自变量与因变量是线性函数...
第2章 一元线性回归模型
第2章 一元线性回归模型_数学_自然科学_专业资料。一元线性回归方程的相关问题第2 章 一元线性回归模型 一、单项选择题 1、变量之间的关系可以分为两大类___...
一元线性回归模型
一元线性回归模型_理学_高等教育_教育专区。一元线性回归模型一、单选题 1.在回归分析中,定义的变量满足( B A.解释变量和被解释变量都是随机变量 B. 解释变量...
一元线性回归分析论文
本文尝试用一元线性回归分析方法为微生物生长与温度之 间的关系建模,并对之后几年的情况进行分析和预测。 1 一元线性回归分析法原理 1.1 问题及其数学模型 一元...
第二节 一元线性回归分析
第二节 一元线性回归分析 本节主要内容:回归是分析变量之间关系类型的方法, ...(1)线性回归方程的显著性检验——f 检验线性回归方程的显著性检验即方差分析...
更多相关标签: