当前位置:首页 >> 数学 >>

高中数学选修3.1回归分析的基本思想及其初步应用 (3)人教版ppt课件_图文

第三章 统计案例 3.1 回归分析的基本思想及其初步应用 ? 假设某地区从2003年到2012年的人 均GDP(单位:美元)数据如表: ? 能否根据提供的数据建立一个合适 的模型,预报2014年(或2015年) 的人均GDP是多少? 年份 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 人均GDP 1200 1510 1870 2210 2570 3000 3670 4500 5430 6100 1.通过对实际问题的分析,了解回归分析的必要性 与回归分析的一般步骤;了解线性回归模型与函 数模型的区别.(重点) 2.尝试作散点图,求回归直线方程. (重点) 3.能用所学的知识对实际问题进行回归分析,体会 回归分析的实际价值与基本思想;了解判断回归 模型拟合好坏的方法——相关指数和残差分析. (重点、难点) 探究点1 回归分析的基本思想 我们知道 , 函数关系是一种确定 性关系,而相关关系 是一种非确定性关系.回归分析(regression analysis) 是对具有相关关系的两个变量进行统计分析的一种常用 方法.在之前的学习中,我们对两个具有线性相关关系的 变量利用回归分析的方法进行了研究 ,其步骤为画散 点 图, 求回归直线方程 , 并用回归直线方程进行预报. 对于一组具有线性相关关系的数据 ? x1 , y1 ? , ? x 2 , y 2 ? , ? ? ?, ? x n , y n ? , 我们知道其回归直线y = bx + a的斜率和截距 的最小二乘估计分别为 ?? b ? ?x i ?1 n n i ? x ?? yi ? y ? i ? ?x i ?1 ? x? , ?1? ? ? ? y ? bx, a ? 2? 2 1 n 1 n 其中x ? ? x i , y ? ? y i . ? x, y ? 称为样本点的 n i ?1 n i ?1 中心.你能推导出这两个计算公式吗 ? 例1 从某大学中随机选取8名女大学生,其身高和体 重数据如表 3-1所示. 表 3-1 编号 1 2 3 4 5 6 7 8 身 高 / cm 1 6 5 1 6 5 1 5 7 1 7 0 1 7 5 1 6 5 1 5 5 1 7 0 体 重 / kg 48 57 50 54 64 61 43 59 求根据女大学生的身高预报体重的回归方程, 并 预 报 一 名 身 高 为 172 cm 的 女 大 学 生 的 体 重 . 解:由于问题中要求根据身高预报体重,因此选取身 高为自变量 x , 体重为因变量 y .作散点图 (图3.1 - 1) : 从图 3.1 - 1 中可以看出 , 体重/kg 样本点呈条状分布 ,身高和体 重有比 较好的线性相关关系 , 因此可以用回归直线 y = bx + a 身高/cm 来近似刻画它们之间的关系 . 图3.1 - 1 根据探究中的公式(1)和(2),可以得到 ? ? 0.849,a ? ? ?85.712. b ? ? 0.849x ? 85.712. 于是得到回归方程y ? = 0.849 是回归直线的斜率的估计值 ,说明身高 x b 每增加 1 个单位 ,体重 y 就增加 0.849 个单位 ,这表明 体重与身高具有正的线性相关关系 . 所 以 ,对 身 高 为 172 cm 的 女 大 学 生 , 由回归方程可以 预报其体重为 ? = 0.849 ? 172 - 85.712 = 60.316 ( kg ) . y 思考: 身高 为172 cm 的女大学生的体重一定是 60.316 kg 吗 ? 如果不是 ,你能解释一下 原因吗 ? 显然,身高为172 cm的女大学生的体重不一定 是60.316 kg,但一般可以认为她的体重在60.316 kg 左右.图3.1 - 2中的样本点和回归直线的相互位置 说明了这一点. 体重/kg 从散点图中还看到,样本点散布在某一条直 线 的 附 近 ,而 不 是 在 一 条 直 线 上 , 所 以 不 能 用 一 次 函数 y = bx + a 来描述它们之间的关系 . 这时我们把身高和体重 的关系用下面的线性回归模型 y = bx + a + e ( 3) 来表示,这里a和b为模型的未知参数,e是y与bx + a 之间的误差.通常e为随机变量, 称为随机误差,它的 均值E ? e ? = 0,方差D ? e ? = σ 2 > 0.这样线性回归模 型的完整表达式为 : y ? bx ? a ? e , E ? e ? ? 0, D ? e ? ? ? . 2 (4) 在线性回归模型 ?4 ?中, 随机误差 e 的方差 ? 2 越小, 用 bx ? a 预报真实值 y 的精度越高.随机误差是引起 ? 与真实值y 之间存在误差的原因之一 , 其大小 预报 值y 取决于随机误差的方差. ? 为截距和斜率 ? 和b 另一方面,由于公式 ?1? 和 ? 2 ?中a 的估计值, 它们与真实值 a 和 b 之间也存在误差, 这种 ? 与真实值y之间存在误差的另一个 误差是引起预报值y 原因. 思考 : 产生随机误差项 e 的原 因是什么 ? 实际上 , 一个人的体重值除了受身高的影响外, 还受其他许多因素的影响 . 例如饮 食习惯、是否喜 欢运动、度量误差等.另外 ,我们选用的线性模 型往 往只是一种近似的模型 .所有这些因素都会导致随 机误差e的产生. 探究 在线性回归模型中, e是用bx +a预报真实值y的 随机误差, 它是一个不可观测的量, 那么应该怎样研究 随机误差 ? 如何衡量预报的精度 ? 在实际应用中,我们用回归方程 ? ?a ? ? ? bx y ? 估计( 4 )中的 bx ? a. 中的 y 由于随机误差 e ? y ? (bx ? a), ? ? y?y ? 是 e的估