当前位置:首页 >> 高中教育 >>

2012全品高考复习方案教师手册(理)第9单元-统计与统计案例-人教A版


第九单元 统计与统计案例

第53讲 第54讲 第55讲

随机抽样 用样本估计总体 变量的相关性与统计案例

人教A版

第九单元

统计与统计案例

第九单元 │ 知识框架

知识框架

第九单元 │ 考纲要求

考纲要求
1.随机抽样 (1)理解随机抽样的必要性和重要性. (2)会用简单随机抽样方法从总体中抽取样本;了解分层抽样 和系统抽样方法. 2.用样本估计总体 (1)了解分布的意义和作用,会列频率分布表,会画频率分布 直方图、频率折线图、茎叶图,理解它们各自的特点. (2)理解样本数据标准差的意义和作用,会计算数据标准差.

第九单元 │ 考纲要求
(3)能从样本数据中提取基本的数字特征(如平均数、标准差), 并给出合理的解释. (4)会用样本的频率分布估计总体分布,会用样本的基本数字 特征估计总体的基本数字特征,理解用样本估计总体的思想. (5)会用随机抽样的基本方法和样本估计总体的思想解决一些 简单的实际问题. 3.变量的相关性 (1)会作两个有关联变量的数据的散点图,会利用散点图认识 变量间的相关关系. (2)了解最小二乘法的思想,能根据给出的线性回归方程系数 公式建立线性回归方程.

第九单元 │ 考纲要求

4.统计案例 了解下列一些常见的统计方法,并能应用这些方法解决一 些实际问题. (1)独立性检验 了解独立性检验(只要求2×2列联表)的基 本思想、方法及其简单应用. (2)回归分析 了解回归分析的基本思想、方法及其简单 应用.

第九单元 │ 命题趋势 命题趋势

1.高考在本单元考查的重点在三种抽样方法的应用、统计 图表的绘制与分析、数字特征的计算与分析、线性回归分析和独 立性检验,这些知识点的考查都会以实际问题为载体. 2.本单元内容高考要求较低,多以选择题或填空题的方式 进行考查,难度较低,也可能在综合解答题中作为试题的一小部 分进行考查,重点考查统计的基本方法以及在实际问题中的应用, 由于是新课标中新增加的内容,也不排除考查大题的可能,并且 有些省份已经以解答题的方式考查过线性回归和独立性检验.

第九单元 │ 命题趋势

预计2012年仍然会顺应近三年高考命题的基本趋势,在高考试 卷中这部分会命制1至2个小题,考查统计的基础知识和基本方法, 在综合解答题中和概率统计的其他知识一起进行综合考查.

第九单元 │ 使用建议 使用建议
1. 编写意图 本单元内容将教材中必修3第二章《统计》和选修1-2第三 章《统计案例》整合在一起.本单元内容与生产生活实际相结 合,数据多,公式多,要求考生有较强的数据处理能力,公式 一般不需要记忆,考试时会给出公式.根据考试说明和高考对 本单元考查的实际情况,本单元在编写时注意到以下几点:一 是注意了基础知识的全面性和系统性;二是注意了统计方法的 讲解,编写中把各种统计方法的使用放在首位;三是注意了高 考的发展趋势,加强了对统计案例的复习力度.

第九单元 │ 使用建议
2.教学指导 在复习过程中,要注意以下三个方面: (1)强化概念的教学,本单元概念较多,引导学生结合具 体题目,仔细体会概念的含义,通过适当练习,学会如何使 用概念解题. (2)统计图表是统计中的主要工具,教学中要使学生学会 从图表中提取有关的数据信息、进行统计推断的方法. (3)加强运算能力的培养,统计的数字计算较繁,要求学 生培养良好的运算习惯,通过统计的复习提高运算能力. 3.课时安排 本单元包括3讲和1个单元能力训练卷,每讲和单元能力训练 卷各用1课时,共需4课时完成.

第53讲 │ 随机抽样

第53讲 随机抽样

第53讲 │ 知识梳理

知识梳理
1.在统计里,我们把所有考察对象的全体叫总体,其中 总体中每一个考察的对象叫个体,从总体中抽取的部分个体 容量 叫一个样本,样本中包含个体的数目叫做样本______. 2.一个总体含有N个个体,从中逐个不放回地抽取n个个 体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽 简单随机 到的机会都相等,就把这种抽样方法叫做____________抽 样.两种常见的实施简单随机抽样的办法是:抽签法和随机 数法.

第53讲 │ 知识梳理
3.当总体中的个体数较多时,将总体分成均衡的几个部 分,然后按照预先定出的规则,从每一部分抽取一个个体, 系统 得到所需要的样本,这样的抽样叫做________抽样.
系统抽样的操作步骤: 第一步, 利用随机的方式将总体中的个体 N 编号;第二步,将总体的编号分段,要确定分段间隔 k,当 n 是整数 N N 时,k= n ;当 n 不是整数时,通过从总体中剔除一些个体使剩下的个 N′ 体个数 N′能被 n 整除,这时 k= n ;第三步,在第 1 段用简单随机抽 样确定第一个个体编号 l,再按事先确定的规则抽取样本,通常是将 l 加上间隔 k 得到第 2 个编号(l+k),将(l+k)加上 k,得到第 3 个编 号(l+2k),这样继续下去,直到获取整个样本(注:这是个常用方法, 但不是唯一的方法).

第53讲 │ 知识梳理

4.在抽样时,将总体分成互不交叉的层,然后按照一定 的比例,从各层独立地抽取一定数量的个体,将各层取出的 分层 个体合在一起作为样本,这种抽样方法叫______抽样. 分层抽样的操作步骤:第一步,确定样本容量与总体个数 的比;第二步,计算出各层需抽取的个体数;第三步,采用 简单随机抽样或系统抽样在各层中抽取个体;第四步,将各 层中抽取的个体合在一起,就是所要抽取的样本.

第53讲 │ 知识梳理
5.三种抽样方法的区别与联系:
类别
共同点 简单随机抽样 系统抽样 分层抽样

抽样过程中每个个体被抽到的机会均等,不放回抽样 将总体均分成几部分, 按事先确定的规则在各 部分抽取

各自特点

从总体中逐个抽取

将总体分n层,分层进 行抽取

相互联系

在起始部分抽样时采用 各层抽样采用简单随机 简单随机抽样 抽样或系统抽样 总体由差异明显的几部 分组成

适用范围

总体中个体数较少

总体中个体数较多

第53讲 │ 知识梳理

6.一个总体含 N 个个体,用简单随机抽样方法从中抽取 n 个个 n 体作为样本(n≤N),每个个体被抽到的概率相等,且均为N.

第53讲 │ 要点探究 要点探究
探究点1 简单随机抽样 例1 参加2010年亚运会火炬传递活动的6名火炬手,需要在 某市的30名优秀运动员中产生,请用随机数表法和抽签法设计抽样 方案. ?

例1 [思路] 按随机数表法的操作步骤和抽签法的操作步骤 进行. [解答] 随机数表法: 第一步:将30名运动员编号,编号分别为01,02,…,30; 第二步:在随机数表中任选一个起始数,按某一确定方向 读数;

第53讲 │ 要点探究
第三步:凡是不在01~30中的数或已读过的数,都跳过去 不做记录,依次记下6个得数; 第四步:找出号码与记录的数相同的运动员,这样就选出 了6名火炬手. 抽签法: 第一步:将30名运动员编号,编号分别为01,02,…,30; 第二步:将30个号码分别写在30张外形完全一样的纸张上, 并揉成团,制成号签; 第三步:将30个号签放入一个不透明的盒子中,充分搅匀; 第四步:从盒子中逐个抽取6个号签,并记录上面的编号, 编号对应的运动员就是选出的火炬手.

第53讲 │ 要点探究

[点评] 总体的个数较少,利用随机数法或抽签法可容易获 得样本;随机数表法的操作要点:编号、选起始数、读数、获取 样本;抽签法的操作要点:编号、制签、搅匀、抽取.

第53讲 │ 要点探究

下面的抽样方法是简单随机抽样吗?为什么? (1)某班45名同学,指定个子最高的5名同学参加学校组织的某项 活动; (2)从40个零件中一次性抽取5个进行质量检测; (3)某同学从自己制作的知识卡片盒子中随意抽取一张卡片来学习, 几分钟后放回盒子,然后又随意抽取一张,这样连续做了3次. [思路] 用简单随机抽样的特点进行判断. [解答] (1)不是简单随机抽样,因为这不是等可能抽样.(2)不是 简单随机抽样,因为是“一次性”抽取,不是“逐个”抽取.(3)不 是简单随机抽样,因为这是有放回抽样.

第53讲 │ 要点探究
? 探究点2 系统抽样

例2 要从已经编号(1~60)的60枚最新研制的某种型号导弹 中随机抽取6枚来进行发射试验,用每部分选取的号码间隔一 样的系统抽样方法确定所选的6枚导弹的编号可能是( ) A.5,10,15,20,25,30 B.2,12,22,32,42,52 C.6,13,38,31,45,58 D.5,10,23,33,43,59

例2 [思路] 按照系统抽样的等距性对每个选项进行检验. B [解析] 按系统抽样,分为6组,每组10个编号,每个被抽取 的编号之间相差10,只有选项B符合条件,选B.

第53讲 │ 要点探究

[点评] 一般地,系统抽样是等距离抽样,本例中,第一组 抽取号码2,然后以10为间距依次等距离抽取后面的编号,抽出 的所有号码为2+10k(k=0,1,2,3,4,5).值得注意的是,并不是所 有的系统抽样都是等距离抽样,这要看所给的抽样规则.

第53讲 │ 要点探究

[2010· 湖北卷] 将参加夏令营的600名学生编号为: 001,002,…,600,采用系统抽样方法抽取一个容量为50的样本, 且随机抽得的号码为003.这600名学生分住在三个营区,从001到 300在第Ⅰ营区,从301到495住在第Ⅱ营区,从496到600在第Ⅲ 营区,三个营区被抽中的人数依次为( ) A.26,16,8 B.25,17,8 C.25,16,9 D.24,17,9 [思路] 先求出分段的间隔数,得出抽取到的样本的编 号,这些编号构成一个等差数列,再计算这个数列在三个营区 的项数.

第53讲 │ 要点探究

[解析] 本题涉及抽样方法中的系统抽样.该知识点在高考考纲中 600 为 A 级要求.首先将编号按间隔 k= = 12 分 段 , 则 分 别 是 50 003,015,027,039?构成以 3 为首项,12 为公差的等差数列,可分别求 出 001 到 300 中有 25 人, 到 495 中有 17 人, 到 600 中有 8 人, 301 496 故本题选 B. B

第53讲 │ 要点探究
? 探究点3 分层抽样

例3某企业三月中旬生产A、B、C三种产品共3000件,根 据分层抽样的结果,该企业统计员制作了如下的统计表格:
产品类别
产品数量(件) 样本容量(件)

A

B
1300 130

C

由于不小心,表格中A、C产品的有关数据已被污染看不清 楚,统计员记得A产品的样本容量比C产品的样本容量多10, 根据以上信息,可得C产品的数量是________件.

第53讲 │ 要点探究
例 3 [思路] 设 C 产品的数量为 x,样本容量为 a,根据抽取比 130 1 例 = 和题目条件列出比例式求解. 1300 10 800 [解析] 设 C 产品的数量为 x, A 产品的数量为 1700-x, 则 C 产品的样本容量为 a, A 产品的样本容量为 10+a, 则 由分层抽样 a+10 a 130 的定义可知: = = ,解得 x=800. 1700-x x 1300

[点评]分层抽样解题的关键是抽取比例,比例确定之后,各层 以同一比例抽取样本,这样就保证了各个个体被抽取的机会均等. 在求解的过程中,要注意比例的性质、解方程的方法的应用.

第53讲 │ 要点探究
1 某校有300名老师与3719名学生,为参加2010—2011 年CHBL(全国高中篮球联赛)选拔赛的运动员加油助威,学校决 定从中抽取40人组成啦啦队,规定采用下列方法选取:先利用 简单随机抽样方法,从3719名学生中剔除19人,然后用分层抽 样在老师与学生中确定样本数,再按系统抽样方法抽取,下列 对于这4019人中,每人入选的可能性叙述正确的是( ) 1 A.都相等,且为 100
40 B.都相等,且为 4019 C.剔除的 19 人中入选的可能性为 0 D.老师入选的可能性大

第53讲 │ 要点探究

1 [思路] (1)随机抽样抽取样本,每个个体被抽到的 机会均等;(2)先求出抽取比例,再用这个比例分别乘以各层 的人数,即得各层应抽取的人数.
B [解析] 不论采用哪种抽样方法, 每个个体抽到的可能性都

40 相等,都是 . 4019

第53讲 │ 要点探究

2 [2010· 四川卷] 一个单位有职工800人,其中具有高 级职称的160人,具有中级职称的320人,具有初级职称的200人, 其余人员120人.为了解职工收入情况,决定采用分层抽样的方 法,从中抽取容量为40的样本.则从上述各层中依次抽取的人 数分别是( ) A.12,24,15,9 B.9,12,12,7 C.8,15,12,5 D.8,16,10,6

第53讲 │ 要点探究

2 [思路] 先求出抽取比例,再用这个比例分别乘以 各层的人数,即得各层应抽取的人数.
40 1 160 D [解析] 因为 = , 故各层中依次抽取的人数分别是 800 20 20 320 200 120 =8, =16, =10, =6. 20 20 20

第53讲 │ 规律总结 规律总结
1.简单随机抽样 简单随机抽样是最简单、最基本的抽样,比较容易理解,步骤 性强,操作方便.关键是掌握操作步骤.随机数表法的操作要 点:编号、选起始数、读数、获取样本;抽签法的操作要点: 编号、制签、搅匀、抽取. 2.系统抽样 系统抽样又称为等距抽样,号码序列一确定,样本就确定了, 但有时也不是按一定间隔抽取的.应用系统抽样方法抽样时, 要注意其一般步骤.

第53讲 │ 规律总结
3.应用分层抽样应遵循的两点 (1)分层,将相似的个体归为一类,即为一层,分层要求每层的 各个个体互不交叉,即不重复不遗漏. (2)分层保证每个个体等可能被抽取,需遵循在各层中进行简单 随机抽样,每层样本数量与每层个体数量的比与样本与总体容量的 比相等. 4.三种常用的抽样方法 简单随机抽样、系统抽样和分层抽样是三种常用的抽样方法,但不 管采用哪种抽样方法,抽样过程中每一个个体被抽取的机会都相 等.简单随机抽样是最简单、最基本的抽样方法,在进行系统抽样 和分层抽样时都要用到简单随机抽样方法,而系统抽样是应用最广 泛的抽样方法,尤其适应于工业生产线上质量控制问题的抽样.

第54讲 │ 用样本估计总体

第54讲 用样本估计总体

第54讲 │ 知识梳理 知识梳理
1.列频率分布表、画频率分布直方图的步骤 最大值与最小值 (1)计算极差,即计算一组数据中_________________的差; (2)决定组距与组数; (3)将数据分组; (4)列频率分布表; (5)画频率分布直方图. 注:①频率分布表列出的是在各个不同区间内取值的频率, 频率分布直方图是用小长方形面积的大小来表示在各个区间内 取值的频率.直角坐标系中的纵轴表示频率与组距的比值,即

第54讲 │ 知识梳理

频率 小长方形面积=组距× =频率;②各组频率的和等于 1,即 组距 所有长方形面积的和等于 1; ③频率分布表在数量表示上比较确 切,但不够直观、形象,不利于分析数据分布的总体态势;④ 从频率分布直方图可以清楚地看出数据分布的总体态势,但是 从直方图本身得不出原始的数据内容.

第54讲 │ 知识梳理

2.总体密度曲线 连接频率分布直方图中各个小长方形上端的中点,就得到频率 分布折线图.随着样本容量的增加,作图时所分的组数增加, 组距减小,相应的频率折线图会越来越接近于一条光滑曲线, 总体 统计中称这条光滑曲线为______密度曲线.总体密度曲线反映 了总体在各个范围内取值的百分比,它能给我们提供更加精细 的信息.

第54讲 │ 知识梳理

3.茎叶图的制作方法 将所有的两位数的十位数字作为茎(若是三位数,则将百位,十 位数字作为茎),个位数字作为叶,若是两组数据,则共用一个 茎,茎按从小到大的顺序从上向下排列,共茎的叶一般按从大 到小或从小到大同行列出.在制作茎叶图时,重复的数字要重 复记录,不能遗漏,特别是叶的部分,同一数据出现几次,就 要在图中列出几次.

第54讲 │ 知识梳理
4.众数、中位数与平均数 次数 (1)众数:一组数据中出现______最多的数据叫做众数; (2)中位数:将一组数据从小到大(或从大到小)依次排列,把 中间 中间两数据 ______数据(或______________的平均数)叫做中位数,中位数把样 本数据分成了相同数目的两部分; 1 n(x1+x2+?+xn) (3)平均数:x1,x2,…,xn的平均数 x =_________________. 注:由于众数仅能刻画某一数据出现的次数较多,中位数对极 端值不敏感,而平均数又受极端值左右,因此这些因素制约了仅依 赖这些数字特征来估计总体数字特征的准确性.

第54讲 │ 知识梳理
5.标准差与方差 考察样本数据的分散程度的大小,最常用的统计量是标准 差.标准差是样本数据到平均数的一种平均距离,一般用s表示. 1 [?x1- x ?2+?x2- x ?2+?+?xn- x ?2] n s=____________________________________________.

标准差的平方s2叫做方差, 1 [(x1- x )2+(x2- x )2+?+(xn- x )2] n s2=________________________________________________, 第n个数 样本容量 平均数 其中xn是__________,n是__________, x 是________.

第54讲 │ 要点探究 要点探究
? 探究点1 用样本的频率分布估计总体分布

例1 某校对高三年级的学生进行体检,现将高三男生的体重 (kg)数据进行整理后分成五组,并绘制频率分布直方图(如图54-1 所示).根据一般标准,高三男生的体重超过65 kg属于偏胖,低于 55 kg属于偏瘦.已知图中从左到右第一、第三、第四、第五小组 的频率分别为0.25,0.20,0.10,0.05,第二小组的频数为400,则该 校高三年级的男生总数和体重正常的频率分别为( )

第54讲 │ 要点探究

A.1000,0.50 C.800,0.60

B.800,0.50 D.1000,0.60

第54讲 │ 要点探究

例1 [思路] 先求第二小组的频率,结合其频数,就可以得出 男生总数,正常体重学生所占频率为第二和第三小组频率之和.
D [解析] 据题意,得第二小组的频率为 1-(0.25+0.20+0.10+0.05) 400 =0.40,且其频数为 400,设高三年级男生总数为 n,则有 =0.40, n ∴n=1000.体重正常的学生所占的频率为第二和第三小组频率之和,即 0.20+0.40=0.60.

第54讲 │ 要点探究

[点评] 解决频率分布直方图的问题, 关键在于找出图中数据之间 频率 的联系.这些数据中,比较明显的有组距、 ,间接的有频率、 组距 小长方形的面积,合理使用这些数据,再结合两个等量关系:小 频率 长方形面积=组距× =频率,小长方形面积之和等于 1,即 组距 频率之和等于 1,就可以解决直方图的有关问题.

第54讲 │ 要点探究
从高三学生中抽取50名同学参加数学竞赛,成绩的分组 及各组的频数如下(单位:分):[40,50),2;[50,60),3;[60,70) ,10;[70,80),15;[80,90),12;[90,100),8.
成绩分组
[40,50) [50,60) [60,70) [70,80)

频数
2 3 10 15 12 8 50

频率

频率/组距

[80,90)
[90,100) 合计

第54讲 │ 要点探究

第54讲 │ 要点探究
(1)完成样本的频率分布表; (2)画出频率分布直方图和频率分布折线图; (3)估计成绩在[60,90)分的学生比例; (4)估计成绩在85分以下的学生比例.

[思路] (1)由频率的计算公式求出各个频率,再求出频率/ 组距,完成表格;(2)直接画出频率分布直方图和频率分布折 线图;(3)成绩在[60,90)分的学生比例即为[60,90)内的频率之和; (4)计算85分以下的学生比例时,[80,90)内的频率只取一半,即 0.12.

第54讲 │ 要点探究
[解答] (1)频率分布表如下:
成绩分组
[40,50) [50,60) [60,70) [70,80) 频数
2 3 10 15

频率
0.04 0.06 0.2 0.3

频率/组距
0.004 0.006 0.02 0.03

[80,90) [90,100)
合计

12 8
50

0.24 0.16
1

0.024 0.016
0.1

第54讲 │ 要点探究
(2)频率分布直方图和折线图如图所示:

第54讲 │ 要点探究

(3) 成绩在[60,90)分的学生比例为:0.2+0.3+0.24=0.74=74%. (4) 成绩在85分以下的学生比例为:1-(0.12+0.16)=1-0.28= 0.72=72%.

第54讲 │ 要点探究
? 探究点2 利用茎叶图估计总体分布

例2 从两个班中各随机地抽取10名学生,他们的数学成绩 如下:
甲班
乙班
76
86

74
84

82
62

96
76

66
78

76
92

78
82

72
74

52
88

68
85

画出茎叶图并分析两个班学生的数学学习情况. 例2[思路] 画出茎叶图,根据图形分析.

第54讲 │ 要点探究
[解答] 画出茎叶图如图.由图可以看出,在70分~80分之间, 甲班有5人,乙班有3人,在80分~90分之间,甲班有1人,乙班 有5人,所以乙班的高分人数多于甲班,因此乙班总体成绩优于 甲班.

第54讲 │ 要点探究
某公司甲、乙两名职员,自进入公司以来的阶段考 核成绩如下: 甲的得分:95,81,75,91,86,89,71,65,76,88,94,110,107; 乙的得分:83,86,93,99,88,103,98,114,98,79,101. 画出两人考核成绩的茎叶图,请根据茎叶图对两人的成绩进行 比较. [思路] 画出茎叶图后,可以大致看出平均成绩的高低 和稳定程度. [解答] 甲、乙两人考核成绩的茎叶图如图.

第54讲 │ 要点探究

从这个茎叶图上可看出,乙的得分情况是大致对称的,中位 数是98;甲的得分情况除一个特殊得分外,也大致对称,中位数 是88.因此乙成绩比较稳定,总体得分情况比甲好.

第54讲 │ 要点探究
? 探究点3 用样本数字特征估计总体数字特征 例3 某医院急诊中心关于病人等待急诊的时间记录如下(单位: 分钟):
等待时间
频数 [0,5) 4 [5,10) 8 [10,15) 5 [15,20) 2 [20,25] 1

用上表分组资料计算病人平均等待时间的估计值.

例3[思路] 先求出各个时间段的等待总时间的估计值,再求 总的平均等待时间的估计值.

第54讲 │ 要点探究
[解答] 等待时间在[0,5)内的 4 个人的等待总时间的估计值为 0+5 ×4=10; 2 5+10 等待时间在[5,10)内的 8 个人的等待总时间的估计值为 2 ×8=60; 同理,其余三个时间段等待总时间的估计值分别为 62.5, 35,22.5. 10+60+62.5+35+22.5 所以病人平均等待时间的估计值为 = 4+8+5+2+1 9.5(分钟).

第54讲 │ 要点探究
样本中共有五个个体,其值分别为a,0,1,2,3,若该样 本的平均值为1,则样本方差为( )
A. 6 5 6 B. 5 C. 2 D.2

[思路]先利用平均数公式求出a,再利用方差公式求出 方差.
1 D [解析] 由题意知 (a+0+1+2+3)=1,解得 a=-1,所以样本方 5 差为 1 2 s = [(-1-1)2+(0-1)2+(1-1)2+(2-1)2+(3-1)2]=2,故选 D. 5

第54讲 │ 规律总结 规律总结

1.众数、中位数、平均数的异同 (1)众数、中位数及平均数都是描述一组数据集中趋势的量,平均 数是最重要的量. (2)平均数的大小与一组数据里每个数据均有关系,任何一个数据 的变动都会引起平均数的变动,而中位数和众数都不具备此性质. (3)众数考查各数据出现的频率,当一组数据中有不少数据多次出 现时,众数往往更能反映问题. (4)中位数仅与数据的排列位置有关,中位数可能出现在所给数据 中,也可能不在所给数据中,当一组数据中的个别数据变动较大时, 可用中位数描述其集中趋势.

第54讲 │ 规律总结
2.茎叶图刻画数据的优点 (1)所有数据信息都可以在茎叶图中看到. (2)茎叶图便于记录和表示,且能够展示数据的分布情况. 3.利用频率分布直方图估计样本的数字特征 (1)中位数:在频率分布直方图中,中位数左边和右边的直 方图的面积相等,由此可以估计中位数的值. (2)平均数:平均数是频率分布直方图的“重心”,等于图中 每个小矩形的面积乘以小矩形底边中点的横坐标之和. (3)众数:在频率分布直方图中,众数是最高的矩形底边的 中点的横坐标.

第55讲 │ 变量的相关性与统计案例

第55讲

变量的相关性与统计案例

第55讲 │知识梳理 知识梳理
函数 1.变量与变量之间的关系大致可分为两种类型:确定的______ 关系和不确定的相关关系. 2.两个变量的关系可通过它们所对应的点在平面上表现出来, 散点 这些点对应的图形叫做______图. 3.若两个变量的散点图中,所有点看上去都在一条直线附近波 线性相关 动,则称这两个变量是____________的,而若所有点看上去在 某条曲线 ____________附近波动,则称此相关为非线性相关,如果所有点 不相关 在散点图中没有显示任何关系,则称变量间________. 4.从散点图上看,点散布在从左下角到右上角的区域内,两个

第55讲 │知识梳理
正相关 变量的这种相关关系称为________,点散布在从左上角到右下 负相关 角的区域内,两个变量的这种相关关系称为________. 5.从散点图上看,如果这些点从整体上看大致分布在通 回归直线 过散点图中心的一条直线附近,则这条直线叫____________. 6.假设我们已经得到两个具有线性相关关系的变量的一 ^ 组数据(x1,y1),(x2,y2),…,(xn,yn),且所求回归方程是 y ^ ^ ^ 斜率 ^ 截矩 b x+ a ,其中 b 是回归方程的______, a 是______,则有 =
? n n ? ? ?xi- x ??yi- y ? ?xiyi-n x y ? i= 1 ? ^ i= 1 = , ?b= n n ? ? ?x2-n x 2 ? ?xi- x ?2 i =1 i i= 1 ? ?^ ^ ? a= y -b x . ?

第55讲 │知识梳理
通过求Q=(y1-bx1-a)2+(y2-bx2-a)2+…+(yn-bxn-a)2的最 小值而得出回归直线的方法,即求回归直线,使得样本数据的点到 回归直线的距离的平方和最小,这一方法叫做最小二乘法. 7.回归分析的基本思想及其初步应用 相关 (1)回归分析是对具有______关系的两个变量进行统计分析的方 散点图 法,其常用的研究方法步骤是画出________,求出回归直线方程, 并利用回归直线方程进行预报. (x,y) (2)对n个样本数据(x1,y1)、(x2,y2)、…、(xn,yn),________称 为样本点的中心. (3)除用散点图外,还可以用样本相关系数r来衡量两个变量x,y 相关关系的强弱,其中

第55讲 │知识梳理

? ?xi- x ??yi- y ?
i= 1

n

r=

? ?xi- x ? ? ?yj- y ?2
2 i= 1 n j= 1

n

n

?xiyi-n x y
i= 1


n 2 2 ? xi -n x ?? y2-n y 2? j i= 1 j= 1

.

?

n

?

第55讲 │知识梳理
正相关 当r>0,表明两个变量________,当r<0,表明两个变量 负相关 ________,r的绝对值越接近于1,表明两个变量的线性相关性越 几乎不存在 强;r的绝对值越接近于0,表明两个变量之间____________线性 >0.75 相关关系,通常|r|________时,认为这两个变量具有很强的线性 相关关系. (4)用相关指数R2来刻画回归的效果,公式是

?
i= 1

n

^ 2 ?yi-yi?

R2=1-
n i= 1



? ?yi- y ?2

第55讲 │知识梳理
R2的值越大,说明残差平方和越小,也就是说模型拟合效果 越好 ______. 8.独立性检验的基本思想及其初步应用 个体所属的不同类别 (1)若变量的不同“值”表示____________________,则这类变 量称为分类变量. 频数 (2)列出的两个分类变量的______表,称为列联表. (3)利用随机变量K2来判断“两个分类变量有关系”的方法称为 独立性检验 n?ad-bc?2 ____________.

?a+b??a+c??b+d??c+d? 独立性检验公式K2=_____________________. 二维条形图 三维柱形图 (4)在独立性检验中,常用______________和______________ 来直观地反映数据情况.

第55讲 │要点探究 要点探究
? 探究点1 线性相关关系的判定 例1 观察下列各图形:

第55讲 │要点探究
其中两个变量x、y具有相关关系的图形是( A.①② B.①④ C.①②④ D.②③④ )

例1 [思路]根据相关关系的概念直接判断. C [解析] 相关关系有两种情况:所有点看上去都在一条直线 附近波动,是线性相关;若所有点看上去都在某条曲线(不是一 条直线)附近波动,是非线性相关.由图可以看出,①②是线性 相关,④是非线性相关的.只有③是不相关的.选C. [点评]散点图的最大优点就是直观,并且制作散点图也较为方 便,因此散点图在判断两个变量是否相关的过程中起着重要作用.

第55讲 │要点探究

[2010· 赣州模拟] 某种产品的广告支出x(单位:百万 元)与销售额y(单位:百万元)之间有如下的对应关系:
x
y 2 30 4 40 5 60 6 50 8 70

试对变量y与x进行相关性检验. [思路] 判断两变量有无线性相关关系有两种方法:画 出散点图和计算相关系数r.

第55讲 │要点探究
[解答] (1)方法一:利用散点图进行相关性检验.

观察散点图中各点,发现它们都集中在一条直线附近,因此 判断y与x有线性相关关系.

第55讲 │要点探究
方法二:利用相关系数 r 进行相关性检验. 2+4+5+6+8 30+40+60+50+70 x= =5,y = =50,x 2=25,y 5 5
2 5 2 2 2 2 2 2 =2500, xi =2 +4 +5 +6 +8 =145, y2=302+402+602+502+ i i= 1 i= 1

?

5

?

70 =13500, ?xiyi=2×30+4×40+5×60+6×50+8×70=1380,
2 i= 1
i

5

?xi yi -n x y


n

1

r =

? n ?? n ? 2 2? ? 2 2? ? ?xi -n x ?yi -n y ?i = 1 ?·i = 1 ? ? ? ?? ?

第55讲 │要点探究

1380-5×5×50 13 2 = ? ≈0.92,故 y 与 x 有线 ? ? ?= ?145-5×25?· ?13500-5×2500? 20 ? ? ? ? 性相关关系,且相关程度较高.

第55讲 │要点探究 要点探究
? 探究点2 回归直线方程的求法及应用

例2 2010年12月某班主任为了对本班学生的月考成绩进行 分析,决定从全班25名女同学,15名男同学中随机抽取一个 容量为8的样本进行分析. (1)如果按性别比例分层抽样,应选男、女生各多少人? (2)随机抽取8位,若这8位同学的数学、物理分数对应如表:
学生编号
数学成绩x 物理成绩y

1
60 72

2
65 77

3
70 80

4
75 84

5
80 88

6
85 90

7
90 93

8
95 95

第55讲 │要点探究
根据上表数据用散点图说明物理成绩y与数学成绩x之间是否 具有线性相关性.如果具有线性相关性,求y与x的线性回归方 程(系数精确到0.01);如果不具有线性相关性,请说明理由.
8 1 [解答] (1)选取比例为 = , 所以选男生 40 5 1 1 15× =3(人),选女生 25× =5(人). 5 5 (2)以数学成绩 x 为横坐标,物理成绩 y 为纵坐标作散点图如图. 从散点图可以看出这些点大致分布在一 条直线附近,并且在逐步上升,故物理与数 学成绩是正相关.

第55讲 │要点探究

^ ^ ^ 设 y 与 x 线性回归方程是y =b x+a ,根据所给的数据,利 用计算器可以计算出

? ?xi- x ??yi- y ?
i= 1

8

^= b

^ ≈0.65,a =34.13,

? ?xi- x ?2
i= 1

8

^ 所以 y 与 x 的回归方程是y =0.65x+34.13.

第55讲 │要点探究

[点评]求线性回归方程,首先要对两个变量是否具有线性相关 性进行判断,判断的方法有两个:一是用散点图进行判断,二是利 用相关系数的强弱(计算复杂).当两个变量没有相关关系时,即使 可以求出线性回归方程,该方程也是没有实际意义的.

第55讲 │要点探究
? 探究点3 独立性检验的基本思想及应用

例3 [2010· 辽宁卷] 为了比较注射A,B两种药物后产生的皮肤 疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两 组,每组100只,其中一组注射药物A,另一组注射药物B. (1)甲、乙是200只家兔中的2只,求甲、乙分在不同组的概率; (2)表1和表2分别是注射药物A和B后的试验结果.(疱疹面积单 位:mm2) 表1:注射药物A后皮肤疱疹面积的频数分布表:
疱疹面积 频数 [60,65) 30 [65,70) 40 [70,75) 20 [75,80) 10

第55讲 │要点探究
表2:注射药物B后皮肤疱疹面积的频数分布表:
疱疹面积 频数 [60,65) 10 [65,70) 25 [70,75) 20 [75,80) 30 [80,85) 15

①完成下面频率分布直方图,并比较注射两种药物后疱疹面积 的中位数大小;

第55讲 │要点探究

②完成下面2×2列联表,并回答能否有99.9%的把握认为“注射 药物A后的疱疹面积与注射药物B后的疱疹面积有差异”.

第55讲 │要点探究
表3:
疱疹面积小于70 mm2 疱疹面积不小于70 mm2 合计

注射药物A 注射药物B

a= c=

b= d=

合计

n=

n?ad-bc?2 附:K2= ?a+b??c+d??a+c??b+d?

第55讲 │要点探究

例3 [解析]第(1)题,直接利用组合数求出概率;第(2)题 的第①题,根据表1和表2,求出频率,再求出,完成频率分布 直方图,再根据直方图比较两个中位数的大小.第②题,根据 表1和表2完成2×2列联表,再计算K2统计量,根据临界值进行 判断. [解答] (1)甲、乙两只家兔分在不同组的概率为
2C99 100 198 P= 100 = . C200 199

第55讲 │要点探究
(2)①

第55讲 │要点探究
可以看出注射药物A后的疱疹面积的中位数在65至70之间,而 注射药物B后的疱疹面积的中位数在70至75之间,所以注射药 物A后疱疹面积的中位数小于注射药物B后疱疹面积的中位数. ②表3:
疱疹面积小于 70 mm2 注射药物A 注射药物B 合计
a=70 c=35 105

疱疹面积不小于 70 mm2
b=30 d=65 95

合计
100 100 n=200

200×?70×65-35×30?2 K2= ≈24.56. 100×100×105×95

第55讲 │要点探究
由于 K2>10.828,所以有 99.9%的把握认为“注射药物 A 后 的疱疹面积与注射药物 B 后的疱疹面积有差异”. [点评] 独立性检验的一般步骤:①列出 2×2 列联表,假设 n?ad-bc?2 两个变量无关系;②根据公式 K2= 计算 ?a+b??a+c??c+d??b+d? K2 的值;③比较 K2 与临界值的大小关系作出统计推断. 在对判断 结果的精确度要求不是很高的情况下,也可以用二维条形图或三 维柱形图来做粗略估计,如下面的变式.

第55讲 │要点探究
在调查的400名男性中有35名患有色盲症,600名女性中 有8名患有色盲症,将统计数据制成了如图55-3 所示的二维条 形图,该图可以说明的问题是( )

A.色盲与性别没有关系,因为男女 都有色盲 B.由此二维条形图得不到什么结论 C.色盲与性别的关系不能确定 D.色盲与性别是有关系的,究竟有 多大关系,还要进一步研究

第55讲 │要点探究

[思路]通过二维条形图和色盲患者的比例来说明问题.
35 D [解析] 从二维条形图可以看出,男性患色盲症的比例为 , 400 ? 35 8 ? 8 女性中患色盲症的比例为 ,其差值为?400-600?≈0.0742,差值 600 ? ? 较大,因而可以认为:色盲与性别是有关系的,但是关系的大小还 要进一步研究.选 D.

第55讲 │ 规律总结 规律总结
1.对两个变量的相关性关系情况的判断有两个方法:一是 根据散点图,这种方法是从图形上粗略地观察,比较直观、简 单易行,但往往对相关程度刻画的不够准确;二是计算相关系 数法,这种方法能比较准确地反映相关程度,相关系数的绝对 值越接近1,相关性就越强,相关系数就是描述相关性强弱的, 相关性有正相关和负相关,强相关和弱相关. 2.建立回归模型的步骤: (1)确定研究对象,明确解释变量和预报变量; (2)画出散点图,观察它们之间的关系(如是否具有线性相关 关系);

第55讲 │ 规律总结
(3)由经验确定回归方程的类型,主要是线性回归方程; (4)用最小二乘法求线性回归方程; (5)最后是相关性检验,若存在异常,则检查数据是否有误, 或模型是否合适. 3.利用独立性检验可以考查两个分类变量是否有关系,并 能较为准确地给出这种判断的可信度.具体做法是根据公式 K2 n?ad-bc?2 = , 计算随机变量的观测值 k, 值越大, k ?a+b??a+c??c+d??b+d? 说明“两个变量有关系”的可能性越大.


相关文章:
第九单元 统计、统计案例
高三数学文复习课件:第9单... 13页 2财富值 2012全品高考复习方案教师... ...单元能力检测(九) [考查范围:第九单元 统计统计案例] 时间:120 分钟 分值...
2012年高考数学一轮复习精品学案(人教版A版)――统计
( 2012高考数学一轮复习精品学案(人教版 A 版) 统计【课标要求】 一. 课标要求】 1.统计案例 通过典型案例, 学习下列一些常见的统计方法, 并能初步应用...
【名师金典】(教师用书)2016版高考数学大一轮复习 第九章 统计与统计案例
【名师金典】(教师用书)2016版高考数学大一轮复习 第九章 统计与统计案例_数学_...规范解答之十九 概率与统计的综合应用问题求解 第一步: 理清题意, 理解问题中...
2012高考数学备考冲刺之易错点点睛系列专题 概率与统计(理科)(教师版)
2012高考数学备考冲刺之易错点点睛系列专题 概率与统计(理科)(教师版) 隐藏>> 博大教育 概率与统计一、高考预测 计数原理、概率统计部分是高中数学中使用课时最多的...
2012大纲版《全品高考复习方案》物理配套月考试题1A
高考复习方案-数学(理科... 76页 免费 2012课标版...全品高考网 gk.canpoint.cn 试卷类型:A 2012 届...第 3 页共 9 页 全品高考网邮箱:canpoint@188....
2012年7-12月份中学生学习报人教A版高三理科编辑计划
· 中学生学习报·数学周刊》 人教课标 A 高考版?理)2012 年 7--12 月份编辑计划 数学周刊》 ( ...统计 统计案例 计数原理 概率 随机变量及其分布 数...
2015《创新大课堂》高三人教版数学(理)一轮复习课时作业 第九章 统计、统计案例、算法初步 第一节
2015《创新大课堂》高三人教版数学(理)一轮复习课时作业 第九章 统计统计案例...(2012· 浙江高考)某个年级有男生 560 人,女生 420 人,用分层抽样的方法从...
【学海导航】2015届高三数学(人教版理B)第一轮总复习同步训练:第12单元《概率与统计、统计案例》]
【学海导航】2015届高三数学(人教版理B)第一轮总复习同步训练:第12单元《概率与统计统计案例》]_高中教育_教育专区。【学海导航】2015届高三数学(人教版理B)第...
2015《创新大课堂》高三人教版数学(理)一轮复习课时作业 第九章 统计、统计案例、算法初步 第三节
2015《创新大课堂》高三人教版数学(理)一轮复习课时作业 第九章 统计统计案例...答案 56.19 6.(2014· 广东梅州一模)在 2012 年 8 月 15 日那天,某市...
更多相关标签: