当前位置:首页 >> 计算机软件及应用 >>

SPSS第五章 回归分析


一元回归分析
在数学关系式中只描述了一个变量与另一个变量之间的数量变化关系,则称其为一元回归分析。

其回归模型为

y 称为因变量,x 称为自变量, 称为随机误差,a,b 称为待估计的回归参数,下标 i 表示第 i 个观测值。

如果给出 a 和 b 的估计量分别为

,

,则经验回归方程:

一般把 例子:

称为残差, 残差

可视为扰动 的“估计量”。

湖北省汉阳县历年越冬代二化螟发蛾盛期与当年三月上旬平均气温的数据如表 1-1,分析三月上旬平均温度与越冬代二化螟 发蛾盛期的关系。

表 1-1 三月上旬平均温度与越冬代二化螟发蛾盛期的情况表 年份 三月上旬平均温度 1961 8.6 1962 8.3 5 1963 9.7 3 1964 8.5 1 1965 7.5 4 1966 8.4 4 1967 7.3 5 1968 9.7 2 1969 1970 5.4 7 5.5 5

越冬代二化螟发蛾盛期 (6 月 30 日为 0) 3 数据保存在“DATA6-1.SAV”文件中。

1)准备分析数据

在数据编辑窗口中输入数据。建立因变量历期“历期”

在 SPSS 数据编辑窗口中,创建“年份”、“温度”和“发蛾盛期”变量,并把数据输入相应的变量中。或者打开已存在的 数据文件“DATA6-1.SAV”。

2)启动线性回归过程

单击 SPSS 主菜单的“Analyze”下的“Regression”中“Linear”项,将打开如图 1-1 所示的线性回归过程窗口。

图 1-1 线性回归对话窗口

3) 设置分析变量

设置因变量:本例为“发蛾盛期”变量,用鼠标选中左边变量列表中的“发蛾盛期”变量,然后点击“Dependent”栏左边 的 向右拉按钮,该变量就自动调入“Dependent”显示栏里。 设置自变量:选择一个变量作为自变量进入“Independent(S)”框中。用鼠标选中左边变量列表中的“温度”变量,然后点 击“Independent(S)”栏左边的 向右拉按钮,该变量就自动调入“Independent(S)”显示栏里。

注:SPSS 中一元回归和多元回归以及多元逐步回归都是使用同一过程,所以该栏可以输入多个自变量。

设置控制变量

“Selection Variable”为控制变量输入栏。控制变量相当于过滤变量,即必须当该变量的值满足设置的条件时,观测量才

能参加回归分析。当你输入控制变量后,单击“Rule”按钮,将打开如图 1-2 所示的对话。

图 1-2“Rule”对话框

在“Rule”对话框中,右边的“Value”框用于输入数值,左边的下拉列表中列出了观测量的选择关系,其中各项的意义分 别为:
? ? ? ? ? ?

“equal to”等于。 “not equal to”不等于。 “less than”小于。 “less than or equal”小于或等于。 “greater than”大于。 “greater than or equal”大于或等于。

本例的控制变量是“计算”,将它选入“Selection Variable”变量栏里,在“Rule”对话框中选择“equal to”=1。

选择标签变量

“Case Labels”框用于选择观测量的标签变量。在输出结果中,可显示该观测量的值,通过该变量的值可查看相应的观测 量。

本例子选择“年份”为标签变量。

选择加权变量

在主对话框中单击“WLS”按钮,将在主对话框下方展开一个输入框,该框用于输入加权变量。本例子没有加权变量,因此 不作任何设置。

4)回归方式

在“Method”框中选择一种回归分析方式。其中,各项的意义为:
? ?

全进入 “Enter”所选择的自变量将全部进入建立的回归方程中,该项为默认方式。 逐步进入 “Stepwise”根据“Options”对话框中的设置,在方程中加入或剔除单个变量直到所建立的方程中不再 含有可加入或剔除的变量为止。

? ?

后进入 “Remove”将进入方程中的自变量同时剔除。 先进入 “Backward”自变量框中所有的变量同时进入方程中,然后根据“Options”对话框中的设置,剔除某个变 量,直到所建立的方程中不再含有可剔除的变量为止。

?

条件进入“Forward”根据“Options”对话框中的设置,在方程中每次加入一个变量,直至加入所有符合条件的变 量为止。

本例子是一元回归,只能选第一项。

5)设置输出统计量

单击“Statistics”按钮,将打开如图 1-3 所示的对话框。该对话框用于设置相关参数。其中各项的意义分别为:

图 1-3 “Statistics”对话框

①“Regression Coefficients”回归系数选项:

“Estimates”输出回归系数和相关统计量。

“Confidence interval”回归系数的 95%置信区间。 “Covariance matrix”回归系数的方差-协方差矩阵。

本例子选择“Estimates”输出回归系数和相关统计量。

②“Residuals”残差选项:

“Durbin-Watson”Durbin-Watson 检验。 “Casewise diagnostic”输出满足选择条件的观测量的相关信息。选择该项,下面两项处于可选状态: “Outliers outside standard deviations”选择标准化残差的绝对值大于输入值的观测量; “All cases”选择所有观测量。 本例子都不选。

③ 其它输入选项

“Model fit”输出相关系数、相关系数平方、调整系数、估计标准误、ANOVA 表。 “R squared change”输出由于加入和剔除变量而引起的复相关系数平方的变化。 “Descriptives”输出变量矩阵、标准差和相关系数单侧显著性水平矩阵。 “Part and partial correlation”相关系数和偏相关系数。 “Collinearity diagnostics”显示单个变量和共线性分析的公差。

本例子选择“Model fit”项。

6)绘图选项

在主对话框单击“Plots”按钮,将打开如图 1-4 所示的对话框窗口。该对话框用于设置要绘制的图形的参数。图中的“X” 和“Y”框用于选择 X 轴和 Y 轴相应的变量。

图 1-4“Plots”绘图对话框窗口

左上框中各项的意义分别为:
? ? ? ? ? ? ?

“DEPENDNT”因变量。 “ZPRED”标准化预测值。 “ZRESID”标准化残差。 “DRESID”删除残差。 “ADJPRED”调节预测值。 “SRESID”学生氏化残差。 “SDRESID”学生氏化删除残差。

“Standardized Residual Plots”设置各变量的标准化残差图形输出。其中共包含两个选项:

“Histogram”用直方图显示标准化残差。 “Normal probability plots”比较标准化残差与正态残差的分布示意图。

“Produce all partial plot”偏残差图。对每一个自变量生成其残差对因变量残差的散点图。

本例子不作绘图,不选择。

7) 保存分析数据的选项

在主对话框里单击“Save”按钮,将打开如图 1-5 所示的对话框。

图 1-5 “Save”对话框

①“Predicted Values”预测值栏选项:

Unstandardized 非标准化预测值。就会在当前数据文件中新添加一个以字符“PRE_”开头命名的变量,存放根据回 归模型拟合的预测值。 Standardized 标准化预测值。 Adjusted 调整后预测值。 S.E. of mean predictions 预测值的标准误。

本例选中“Unstandardized”非标准化预测值。

②“Distances”距离栏选项:

Mahalanobis: 距离。 Cook’s”: Cook 距离。 Leverage values: 杠杆值。

③“Prediction Intervals”预测区间选项:

Mean: 区间的中心位置。 Individual: 观测量上限和下限的预测区间。在当前数据文件中新添加一个以字符“LICI_”开头命名的变量,存放 预测区间下限值;以字符“UICI_”开头命名的变量,存放预测区间上限值。 Confidence Interval:置信度。

本例选中“Individual” 观测量上限和下限的预测区间。

④“Save to New File”保存为新文件:

选中“Coefficient statistics”项将回归系数保存到指定的文件中。本例不选。

⑤ “Export model information to XML file” 导出统计过程中的回归模型信息到指定文件。本例不选。

⑥“Residuals” 保存残差选项:

“Unstandardized”非标准化残差。 “Standardized”标准化残差。 “Studentized”学生氏化残差。 “Deleted”删除残差。 “Studentized deleted”学生氏化删除残差。

本例不选。

⑦“Influence Statistics” 统计量的影响。

“DfBeta(s)”删除一个特定的观测值所引起的回归系数的变化。 “Standardized DfBeta(s)”标准化的 DfBeta 值。 “DiFit” 删除一个特定的观测值所引起的预测值的变化。 “Standardized DiFit”标准化的 DiFit 值。 “Covariance ratio”删除一个观测值后的协方差矩隈的行列式和带有全部观测值的协方差矩阵的行列式的比率。

本例子不保存任何分析变量,不选择。

8)其它选项

在主对话框里单击“Options”按钮,将打开如图 1-6 所示的对话框。

图 1-6 “Options”设置对话框

①“Stepping Method Criteria”框用于进行逐步回归时内部数值的设定。其中各项为:

“Use probability of F”如果一个变量的 F 值的概率小于所设置的进入值(Entry),那么这个变量将被选入回归方程 中;当变量的 F 值的概率大于设置的剔除值(Removal),则该变量将从回归方程中被剔除。由此可见,设置 “Use probability of F”时,应使进入值小于剔除值。

“Ues F value”如果一个变量的 F 值大于所设置的进入值(Entry),那么这个变量将被选入回归方程中;当变量的 F 值小于设置的剔除值(Removal),则该变量将从回归方程中被剔除。同时,设置“Use F value”时,应使进 入值大于剔除值。

②“Include constant in equation”选择此项表示在回归方程中有常数项。

本例选中“Include constant in equation”选项在回归方程中保留常数项。

③“Missing Values”框用于设置对缺失值的处理方法。其中各项为:

“Exclude cases listwise”剔除所有含有缺失值的观测值。 “Exchude cases pairwise”仅剔除参与统计分析计算的变量中含有缺失值的观测量。 “Replace with mean”用变量的均值取代缺失值。 本例选中“Exclude cases listwise”。

9)提交执行

在主对话框里单击“OK”,提交执行,结果将显示在输出窗口中。见表 1-2 至表 1-5。

10) 结果分析

结果:

表 1-2 给出了回归的方法是全回归模式,模型编号为 1,自变量是“温度”,因变量是“发蛾盛期”。

表 1-2

表 1-3 是回归模型统计量:R 是相关系数;R Square 相关系数的平方,又称判定系数,判定线性回归的拟合程度:用来说 明用自变量解释因变量变异的程度(所占比例);Adjusted R Square 调整后的判定系数;Std. Error of the Estimate 估计 标准误差。

表 1-3

表 1-4 回归模型的方差分析表,F 值为 11.748,显著性概率是 0.009,表明回归极显著。

表 1-4

表 1-5 回归模型系数表,以及 t 检验结果。

表 1-5

分析:

从上面的回归分析结果表明:三月上旬平均温度与越冬代二化螟发蛾盛期的关系极为密切,相关系数 0.7713;同时方差分 析表明,其显著性水平为 0.009。

根据回归系数表 6-5,可写出回归方程如下:

其中 x 代表三月上旬平均温度;

代表越冬代二化螟发蛾盛期(其值加上 7 月 0 日为实际日期)。

预测值 的回归误差可用剩余均方估计:

预测

由于在分析时使用了控制变量“计算”,数据中第 11 个记录的数据在建立回归方程时,并没有使用它,是留作用于预测的。 所以,在选择了保存预测值选项,用模型预测的结果可以在数据窗口中看到(图 1-7)。

图 6-7 分析过程执行后的数据窗口

在图 6-7 中得知,用 1971 年三月上旬平均温度 4.3,预测值为 7.1 天,95%的置信区间是 3.5~10.6 天,预测值的有关统计 量见表 1-6。

表 1-6

逐步回归分析

在自变量很多时,其中有的因素可能对应变量的影响不是很大,而且 x 之间可能不完全相互独立的,可能有种种互作关系。 在这种情况下可用逐步回归分析,进行 x 因子的筛选,这样建立的多元回归模型预测效果会更较好。

逐步回归分析,首先要建立因变量 y 与自变量 x 之间的总回归方程,再对总的方程及每—个自变量进行假设检验。当总的 方程不显著时,表明该多元回归方程线性关系不成立;而当某—个自变量对 y 影响不显著时,应该把它剔除,重新建立不包含 该因子的多元回归方程。筛选出有显著影响的因子作为自变量,并建立“最优”回归方程。

回归方程包含的自变量越多,回归平方和越大,剩余的平方和越小,剩余均方也随之较小,预测值 的误差也愈小,模拟的 效果愈好。但是方程中的变量过多,预报工作量就会越大,其中有些相关性不显著的预报因子会影响预测的效果。因此在多元回 归模型中,选择适宜的变量数目尤为重要。

逐步回归在病虫预报中的应用实例:

以陕西省长武地区 1984~1995 年的烟蚜传毒病情资料、相关虫情和气象资料为例(数据见 DATA6.xls),建立蚜传病毒病情

指数的逐步回归模型,说明逐步回归分析的具体步骤。影响蚜传病毒病情指数的虫情因子和气象因子一共有 21 个,通过逐步回 归,从中选出对病情指数影响显著的因子,从而建立相应的模型。对 1984~1995 年的病情指数进行回检,然后对 1996~1998 年的 病情进行预报,再检验预报的效果。

变量说明如下:

x11:5 月份均温 y:历年病情指数 x12:5 月份降水量 x1: 前年冬季油菜越冬时的蚜量(头/株)x13:6 月份均温 x2:前年冬季极端气温 x14:6 月份降水量 x3:5 月份最高气温 x15:第一次蚜迁高峰期百株烟草 x4:5 月份最低气温 有翅蚜量 x5:3~5 月份降水量 x16:5 月份油菜百株蚜量 x6:4~6 月份降水量 x17:7 月份降水量 x7:3~5 月份均温 x18:8 月份降水量 x8:4~6 月份均温 x19:7 月份均温 x9:4 月份降水量 x20:8 月份均温 x10:4 月份均温 x21:元月均温
1)准备分析数据

在 SPSS 数据编辑窗口中,用“File→Open→Data”命令,打开“DATA6.xls”数据文件。数据工作区如下图 3-1 显示。

图 3-1

2)启动线性回归过程

单击 SPSS 主菜单的“Analyze”下的“Regression”中“Linear”项,将打开如图 3-2 所示的线性回归过程窗口。

图 3-2 线性回归对话窗口

3) 设置分析变量

设置因变量:将左边变量列表中的“y”变量,选入到“Dependent”因变量显示栏里。

设置自变量:将左边变量列表中的“x1”~“x21”变量,全部选移到“Independent(S)”自变量栏里。

设置控制变量: 本例子中不使用控制变量,所以不选择任何变量。

选择标签变量: 选择“年份”为标签变量。

选择加权变量: 本例子没有加权变量,因此不作任何设置。

4)回归方式 在“Method”分析方法框中选中“Stepwise”逐步分析方法。该方法是根据“Options”选择对话框中显著性检验(F)的设 置,在方程中进入或剔除单个变量,直到所建立的方程中不再含有可加入或可剔除的变量为止。设置后的对话窗口如图 3-3。

图 3-3

5)设置变量检验水平

在图 6-15 主对话框里单击“Options”按钮,将打开如图 3-4 所示的对话框。

图 3-4

“Stepping Method Criteria”框里的设置用于逐步回归分析的选择标准。

其中“Use probability of F”选项,提供设置显著性 F 检验的概率。如果一个变量的 F 检验概率小于或等于进入“Entry”

栏里设置的值,那么这个变量将被选入回归方程中;当回归方程中变量的 F 值检验概率大于剔除“Removal”栏里设置的值,则 该变量将从回归方程中被剔除。由此可见,设置 F 检验概率时,应使进入值小于剔除值。

“Ues F value” 选项,提供设置显著性 F 检验的分布值。如果一个变量的 F 值大于所设置的进入值(Entry),那么这个 变量将被选入回归方程中;当回归方程中变量的 F 值小于设置的剔除值(Removal),则该变量将从回归方程中被剔除。同时, 设置 F 分布值时,应该使进入值大于剔除值。

本例子使用显著性 F 检验的概率,在进入“Entry”栏里设置为“0.15”,在剔除“Removal”栏里设置为“0.20”(剔除的 概率值应比进入的值大),如图 6-17 所示。

图 6-17 窗口中的其它设置参照一元回归设置。

6)设置输出统计量

在主对话图 3-2 窗口中,单击“Statistics”按钮,将打开如图 6-18 所示的对话框。该对话框用于设置相关参数。其中各 项的意义分别为:

图 3-5 “Statistics”对话框

①“Regression Coefficients”回归系数选项:

“Estimates”输出回归系数和相关统计量。 “Confidence interval”回归系数的 95%置信区间。

“Covariance matrix”回归系数的方差-协方差矩阵。

本例子选择“Estimates”输出回归系数和相关统计量。

②“Residuals”残差选项:

“Durbin-Watson”Durbin-Watson 检验。 “Casewise diagnostic”输出满足选择条件的观测量的相关信息。选择该项,下面两项处于可选状态: “Outliers outside standard deviations”选择标准化残差的绝对值大于输入值的观测量; “All cases”选择所有观测量。 本例子都不选。

③ 其它输入选项

“Model fit”输出相关系数、相关系数平方、调整系数、估计标准误、ANOVA 表。 “R squared change”输出由于加入和剔除变量而引起的复相关系数平方的变化。 “Descriptives”输出变量矩阵、标准差和相关系数单侧显著性水平矩阵。 “Part and partial correlation”相关系数和偏相关系数。 “Collinearity diagnostics”显示单个变量和共线性分析的公差。

本例子选择“Model fit”项。

7)绘图选项

在主对话框单击“Plots”按钮,将打开如图 3-6 所示的对话框窗口。该对话框用于设置要绘制的图形的参数。图中的“X” 和“Y”框用于选择 X 轴和 Y 轴相应的变量。

图 3-6“Plots”绘图对话框窗口

左上框中各项的意义分别为:
? ? ? ? ? ? ?

“DEPENDNT”因变量。 “ZPRED”标准化预测值。 “ZRESID”标准化残差。 “DRESID”删除残差。 “ADJPRED”调节预测值。 “SRESID”学生氏化残差。 “SDRESID”学生氏化删除残差。

“Standardized Residual Plots”设置各变量的标准化残差图形输出。其中共包含两个选项:

“Histogram”用直方图显示标准化残差。 “Normal probability plots”比较标准化残差与正态残差的分布示意图。

“Produce all partial plot”偏残差图。对每一个自变量生成其残差对因变量残差的散点图。

本例子不作绘图,不选择。

8) 保存分析数据的选项

在主对话框里单击“Save”按钮,将打开如图 3-7 所示的对话框。

图 3-7“Save”对话框

①“Predicted Values”预测值栏选项:

Unstandardized 非标准化预测值。就会在当前数据文件中新添加一个以字符“PRE_”开头命名的变量,存放根据回 归模型拟合的预测值。 Standardized 标准化预测值。 Adjusted 调整后预测值。 S.E. of mean predictions 预测值的标准误。

本例选中“Unstandardized”非标准化预测值。

②“Distances”距离栏选项:

Mahalanobis: 距离。 Cook’s”: Cook 距离。 Leverage values: 杠杆值。

③“Prediction Intervals”预测区间选项:

Mean: 区间的中心位置。 Individual: 观测量上限和下限的预测区间。在当前数据文件中新添加一个以字符“LICI_”开头命名的变量,存放 预测区间下限值;以字符“UICI_”开头命名的变量,存放预测区间上限值。 Confidence Interval:置信度。

本例不选。

④“Save to New File”保存为新文件:

选中“Coefficient statistics”项将回归系数保存到指定的文件中。本例不选。

⑤ “Export model information to XML file” 导出统计过程中的回归模型信息到指定文件。本例不选。

⑥“Residuals” 保存残差选项:

“Unstandardized”非标准化残差。 “Standardized”标准化残差。 “Studentized”学生氏化残差。 “Deleted”删除残差。 “Studentized deleted”学生氏化删除残差。

本例不选。

⑦“Influence Statistics” 统计量的影响。

“DfBeta(s)”删除一个特定的观测值所引起的回归系数的变化。 “Standardized DfBeta(s)”标准化的 DfBeta 值。 “DiFit” 删除一个特定的观测值所引起的预测值的变化。 “Standardized DiFit”标准化的 DiFit 值。 “Covariance ratio”删除一个观测值后的协方差矩隈的行列式和带有全部观测值的协方差矩阵的行列式的比率。

本例子不保存任何分析变量,不选择。

9)提交执行

在主对话框里单击“OK”,提交执行,结果将显示在输出窗口中。主要结果见表 6-10 至表 6-13。

10) 结果分析

主要结果:

表 6-10 是逐步回归每一步进入或剔除回归模型中的变量情况。

表 6-11 是逐步回归每一步的回归模型的统计量:R 是相关系数;R Square 相关系数的平方,又称判定系数,判定线性回 归的拟合程度:用来说明用自变量解释因变量变异的程度(所占比例);Adjusted R Square 调整后的判定系数;Std. Error of the Estimate 估计标准误差。

表 6-12 是逐步回归每一步的回归模型的方差分析,F 值为 10.930,显著性概率是 0.001,表明回归极显著。

表 6-13 是逐步回归每一步的回归方程系数表。

分析:

建立回归模型:

根据多元回归模型:

从 6-13 中看出, 过程一共运行了四步, 最后一步以就是表中的第 4 步的计算结果得知: 21 个变量中只进入了 4 个变量 x15、

x4、x7



x5。

把表 6-13 中“非标准化回归系数”栏目中的“B”列数据代入多元回归模型得到预报方程:

预测值

的标准差可用剩余标准差估计:

回归方程的显著性检验: 从表 6-12 方差分析表第 4 模型中得知:F 统计量为 622.72,系统自动检验的显著性水平为 0.0000(非常小)。

F(0.00001,4,7)值为 70.00。因此回归方程相关非常非常显著。
由回归方程式可以看出,在陕西长武烟草蚜传病毒病 8 月份的病情指数(y)与 x4(5 月份最低气温)、x15(第一次蚜迁高峰期 百株烟草有翅蚜量)呈显著正相关,而与 x5(3~5 月份降水量)和 x7 (3~5 月份均温)呈显著负相关。

通过大田调查结果表明,烟草蚜传病毒病发生与蚜虫的迁飞有密切的关系。迁入烟田的有翅蚜有两次高峰期,呈双峰曲线。 第一高峰期出现在 5 月中旬至 6 月初,此次迁飞的高峰期与大田发病率呈显著正相关。第二高峰期在 6 月上旬末至 6 月中旬,此 次迁飞高峰期与大田发病率关系不大。5 月份的最低气温(x4)和 3~5 月份均温(x7 )通过影响传媒介体蚜虫的活动来影响田间发 病。而第一次蚜迁高峰期百株烟草有翅蚜量(x15)是影响烟草蚜传病毒病病情指数(y)的重要因子。3~5 月份降水量(x5)通过影 响田间蚜虫传病毒病发病植株的症状表现影响大田发病程度。

多元回归分析
在大多数的实际问题中,影响因变量的因素不是一个而是多个,我们称这类回问题为多元回归分析。可以建立因变量 y 与 各自变量 xj(j=1,2,3,?,n)之间的多元线性回归模型:

其中:b0 是回归常数;bk(k=1,2,3,?,n)是回归参数;e 是随机误差。

多元回归在病虫预报中的应用实例:

某地区病虫测报站用相关系数法选取了以下 4 个预报因子;x1 为最多连续 10 天诱蛾量(头);x2 为 4 月上、中旬百束小谷 草把累计落卵量(块);x3 为 4 月中旬降水量(毫米),x4 为 4 月中旬雨日(天);预报一代粘虫幼虫发生量 y(头/m2)。分级别数 值列成表 2-1。

预报量 y:每平方米幼虫 0~10 头为 1 级,11~20 头为 2 级,21~40 头为 3 级,40 头以上为 4 级。

预报因子:x1 诱蛾量 0~300 头为 l 级,301~600 头为 2 级,601~1000 头为 3 级,1000 头以上为 4 级;x2 卵量 0~150 块为 1 级, 15l~300 块为 2 级, 301~550 块为 3 级, 550 块以上为 4 级; x3 降水量 0~10.0 毫米为 1 级,10.1~13.2 毫米为 2 级,13.3~17.0 毫米为 3 级,17.0 毫米以上为 4 级;x4 雨日 0~2 天为 1 级,3~4 天为 2 级,5 天为 3 级,6 天或 6 天以上为 4 级。

表 2-1

x1
年 1960 1961 1962 1963 1965 1966

x2

x3

x4

y
幼虫密 级别 度 10 1 4 1 9 1 55 4 1 1 3 1

蛾量 级别 卵量 级别 降水量 级别 雨日 级别 1022 300 699 1876 43 422 4 1 3 4 1 2 112 440 67 675 80 20 1 3 1 4 1 1 4.3 0.1 7.5 17.1 1.9 0 1 1 1 4 1 1 2 1 1 7 2 0 1 1 1 4 1 1

1967 1976 1971 1972 1973 1974 1975 1976 1977 1978

806 115 718 803 572 264 198 461 769 255

3 1 3 3 2 1 1 2 3 1

510 240 1460 630 280 330 165 140 640 65

3 2 4 4 2 3 2 1 4 1

11.8 0.6 18.4 13.4 13.2 42.2 71.8 7.5 44.7 0

2 1 4 3 2 4 4 1 4 1

3 2 4 3 4 3 5 5 3 0

2 1 2 2 2 2 3 3 2 1

28 7 45 26 16 19 23 28 44 11

3 1 4 3 2 2 3 3 4 2

数据保存在“DATA6-5.SAV”文件中。

1)准备分析数据

在 SPSS 数据编辑窗口中,创建“年份”、“蛾量”、“卵量”、“降水量”、“雨日”和“幼虫密度”变量,并输入数据。 再创建蛾量、卵量、降水量、雨日和幼虫密度的分级变量“x1”、“x2”、“x3”、“x4”和“y”,它们对应的分级数值可以 在 SPSS 数据编辑窗口中通过计算产生。编辑后的数据显示如图 2-1。

图 2-1

或者打开已存在的数据文件“DATA6-5.SAV”。

2)启动线性回归过程

单击 SPSS 主菜单的“Analyze”下的“Regression”中“Linear”项,将打开如图 2-2 所示的线性回归过程窗口。

图 2-2 线性回归对话窗口

3) 设置分析变量

设置因变量:用鼠标选中左边变量列表中的“幼虫密度[y]”变量,然后点击“Dependent”栏左边的 量就移到“Dependent”因变量显示栏里。

向右拉按钮,该变

设置自变量:将左边变量列表中的“蛾量[x1]”、“卵量[x2]”、“降水量[x3]”、“雨日[x4]”变量,选移到 “Independent(S)”自变量显示栏里。

设置控制变量: 本例子中不使用控制变量,所以不选择任何变量。

选择标签变量: 选择“年份”为标签变量。

选择加权变量: 本例子没有加权变量,因此不作任何设置。

4)回归方式

本例子中的 4 个预报因子变量是经过相关系数法选取出来的, 在回归分析时不做筛选。 因此在“Method”框中选中“Enter”

选项,建立全回归模型。

5)设置输出统计量

单击“Statistics”按钮,将打开如图 2-3 所示的对话框。该对话框用于设置相关参数。其中各项的意义分别为:

图 2-3 “Statistics”对话框

①“Regression Coefficients”回归系数选项:

“Estimates”输出回归系数和相关统计量。 “Confidence interval”回归系数的 95%置信区间。 “Covariance matrix”回归系数的方差-协方差矩阵。

本例子选择“Estimates”输出回归系数和相关统计量。

②“Residuals”残差选项:

“Durbin-Watson”Durbin-Watson 检验。 “Casewise diagnostic”输出满足选择条件的观测量的相关信息。选择该项,下面两项处于可选状态: “Outliers outside standard deviations”选择标准化残差的绝对值大于输入值的观测量; “All cases”选择所有观测量。 本例子都不选。

③ 其它输入选项

“Model fit”输出相关系数、相关系数平方、调整系数、估计标准误、ANOVA 表。 “R squared change”输出由于加入和剔除变量而引起的复相关系数平方的变化。 “Descriptives”输出变量矩阵、标准差和相关系数单侧显著性水平矩阵。 “Part and partial correlation”相关系数和偏相关系数。 “Collinearity diagnostics”显示单个变量和共线性分析的公差。

本例子选择“Model fit”项。

6)绘图选项

在主对话框单击“Plots”按钮,将打开如图 2-4 所示的对话框窗口。该对话框用于设置要绘制的图形的参数。图中的“X” 和“Y”框用于选择 X 轴和 Y 轴相应的变量。

图 2-4“Plots”绘图对话框窗口

左上框中各项的意义分别为:
? ? ? ? ? ? ?

“DEPENDNT”因变量。 “ZPRED”标准化预测值。 “ZRESID”标准化残差。 “DRESID”删除残差。 “ADJPRED”调节预测值。 “SRESID”学生氏化残差。 “SDRESID”学生氏化删除残差。

“Standardized Residual Plots”设置各变量的标准化残差图形输出。其中共包含两个选项:

“Histogram”用直方图显示标准化残差。 “Normal probability plots”比较标准化残差与正态残差的分布示意图。

“Produce all partial plot”偏残差图。对每一个自变量生成其残差对因变量残差的散点图。

本例子不作绘图,不选择。

7) 保存分析数据的选项

在主对话框里单击“Save”按钮,将打开如图 2-5 所示的对话框。

图 2-5 “Save”对话框

①“Predicted Values”预测值栏选项:

Unstandardized 非标准化预测值。就会在当前数据文件中新添加一个以字符“PRE_”开头命名的变量,存放根据回 归模型拟合的预测值。 Standardized 标准化预测值。

Adjusted 调整后预测值。 S.E. of mean predictions 预测值的标准误。

本例选中“Unstandardized”非标准化预测值。

②“Distances”距离栏选项:

Mahalanobis: 距离。 Cook’s”: Cook 距离。 Leverage values: 杠杆值。

③“Prediction Intervals”预测区间选项:

Mean: 区间的中心位置。 Individual: 观测量上限和下限的预测区间。在当前数据文件中新添加一个以字符“LICI_”开头命名的变量,存放 预测区间下限值;以字符“UICI_”开头命名的变量,存放预测区间上限值。 Confidence Interval:置信度。

本例不选。

④“Save to New File”保存为新文件:

选中“Coefficient statistics”项将回归系数保存到指定的文件中。本例不选。

⑤ “Export model information to XML file” 导出统计过程中的回归模型信息到指定文件。本例不选。

⑥“Residuals” 保存残差选项:

“Unstandardized”非标准化残差。 “Standardized”标准化残差。 “Studentized”学生氏化残差。 “Deleted”删除残差。 “Studentized deleted”学生氏化删除残差。

本例不选。

⑦“Influence Statistics” 统计量的影响。

“DfBeta(s)”删除一个特定的观测值所引起的回归系数的变化。 “Standardized DfBeta(s)”标准化的 DfBeta 值。 “DiFit” 删除一个特定的观测值所引起的预测值的变化。 “Standardized DiFit”标准化的 DiFit 值。 “Covariance ratio”删除一个观测值后的协方差矩隈的行列式和带有全部观测值的协方差矩阵的行列式的比率。

本例子不保存任何分析变量,不选择。

8)其它选项

在主对话框里单击“Options”按钮,将打开如图 2-6 所示的对话框。

图 2-6 “Options”设置对话框

①“Stepping Method Criteria”框用于进行逐步回归时内部数值的设定。其中各项为:

“Use probability of F”如果一个变量的 F 值的概率小于所设置的进入值(Entry),那么这个变量将被选入回归方程 中;当变量的 F 值的概率大于设置的剔除值(Removal),则该变量将从回归方程中被剔除。由此可见,设置 “Use probability of F”时,应使进入值小于剔除值。

“Ues F value”如果一个变量的 F 值大于所设置的进入值(Entry),那么这个变量将被选入回归方程中;当变量的 F 值小于设置的剔除值(Removal),则该变量将从回归方程中被剔除。同时,设置“Use F value”时,应使进 入值大于剔除值。

本例是全回归不设置。

②“Include constant in equation”选择此项表示在回归方程中有常数项。

本例选中“Include constant in equation”选项在回归方程中保留常数项。

③“Missing Values”框用于设置对缺失值的处理方法。其中各项为:

“Exclude cases listwise”剔除所有含有缺失值的观测值。 “Exchude cases pairwise”仅剔除参与统计分析计算的变量中含有缺失值的观测量。 “Replace with mean”用变量的均值取代缺失值。 本例选中“Exclude cases listwise”。

9)提交执行

在主对话框里单击“OK”,提交执行,结果将显示在输出窗口中。主要结果见表 2-2 至表 2-4。

10) 结果分析

主要结果:

表 2-2

表 2-2 是回归模型统计量:R 是相关系数;R Square 相关系数的平方,又称判定系数,判定线性回归的拟合程度:用来说 明用自变量解释因变量变异的程度(所占比例);Adjusted R Square 调整后的判定系数;Std. Error of the Estimate 估计

标准误差。

表 2-3

表 2-3 回归模型的方差分析表,F 值为 10.930,显著性概率是 0.001,表明回归极显著。

表 2-4

分析:

建立回归模型:

根据多元回归模型:

把表 6-9 中“非标准化回归系数”栏目中的“B”列系数代入上式得预报方程:

预测值

的标准差可用剩余均方估计:

回归方程的显著性检验:

从表 6-8 方差分析表中得知:F 统计量为 10.93,系统自动检验的显著性水平为 0.001。

F(0.05,4,11)值为 3.36,F(0.01,4,11)
在 Excel 中用 FINV( )函数获得)。

值为 5.67,F(0.001,4,11) 值为 10.35。因此回归方程相关非常显著。(F 值可

回代检验

需要作预报效果的验证时,在主对话框(图 6-8)里单击“Save”按钮,在打开如图 3-6 所示对话框里,选中“Predicted Values”预测值选项栏中的“Unstandardized”非标准化预测值选项。这样在过程运算时,就会在当前文件中新添加一个 “PRE_1”命名的变量,该变量存放根据回归模型拟合的预测值。

然后,在 SPSS 数据窗口计算“y”与“PRE_1”变量的差值(图 2-7),本例子把绝对差值大于 0.8 视为不符合,反之则符合。 结果符合的年数为 15 年,1 年不符合,历史符合率为 93.75%。

图 2-7

多元回归分析法可综合多个预报因子的作用,作出预报,在统计预报中是一种应用较为普遍的方法。

在实际运用中,采取将预报因子和预报量按一定标准分为多级,用分级尺度代换较大的数字,更能揭示预报因子与预报量的 关系,预报效果比采用数量值统计方法有明显的提高,在实际应用中具有一定的现实意义。

曲线回归分析
在一元回归中,若因变量和自变量相关的趋势不是线性分布,呈现曲线关系。这种情况可以利用 SPSS 提供的曲线估计过程 (Curve Estimation)方便地进行线性拟合,选出最佳的回归模型来拟合出相应曲线。

下面以一个实例来介绍曲线拟合的基本步骤和使用方法。

例子

台湾稻螟蚁螟侵入不同叶龄稻茎后的生存率数据(表 4-1)。拟合出适合的曲线模型,来表达不同叶龄稻茎对台湾稻螟蚁螟 侵入的生存关系。

表 4-1 台湾稻螟蚁螟侵入不同叶龄稻茎后的生存率数据 生存率 叶龄

8.9 2

10.3 3

12.3 4

12.9 5

13.1 6

13.5 7

13.8 8

13.6 9

12.7 10

13.5 11

本例子数据保存在 DATA6-3.SAV。

1)准备分析数据

在 SPSS 数据编辑窗口建立变量“生存率”和“叶龄”两个变量,把表 6-13 中的数据输入到对应的变量中。

或者打开已经存在的数据文件(DATA6-3.SAV)。

2)启动线性回归过程

单击 SPSS 主菜单的“Analyze”下的“Regression”中“Curve Estimation”项,将打开如图 4-1 所示的线回归对话窗口。

图 4-1 线回归对话窗口

3) 设置分析变量

设置因变量:从左侧的变量列表框中选择一个或多个因变量进入“Dependent(s)”框。本例子选“生存率”变量为因变量。

设置自变量:选择一个变量为自变量,进入“Independent”框,也可选取“Independent”框中的“Time”项,即以时间为 自变量。本例子选“叶龄”变量为自变量。

选择标签变量: 选择一个变量进入到“Case Labels”框中,该变量为标签变量,可以利用该变量的值在图上查找观测值。 本例子没有标签变量。

4)选择曲线方程模型

在“Models”框中选择一个或多个回归方程模型,这 11 个模型都可化为相应的线性模型。其中各项的意义分别为:

(1) Linear 线性模型 (2) Quadratic 二次模型

(3) Compound 复合模型 (4) Growth 生长模型 (5) Logarithmic 对数模型 (6) S 形模型 (7) Cubic 抛物线模型 (8) Exponential 指数的模型 (9) Inverse 倒数模型 (10) Power 幂函数模型

(11) Logistic 逻辑斯蒂模型

在各项模型上单击鼠标右键,可以得到模型的方程类型。当选中“Logistic”项时,应在“Upper bound”框中输入一个数 值作为逻辑模型的上限值。

本例子选中第 9 号模型(Inverse,倒数模型)。

5)设置方程常数项

选中“Include constant in equation”项回归方程中包含常数项。

6)绘制模型拟合图

选中“Plot models”项绘制出回归方程模型图。本例子选中此项。

7)输出方差分析表

选中“Display ANOVA table”项,将输出方差分析表。

8) 保存分析数据

单击“Save”按钮,将打开如图 4-2 所示的对话框。该对话框用于选择要保存的新变量。

图 4-2 曲线回归保存值设置对话窗口

“Save Variables”框中列出了可保存的新变量: “Predicted values”预测值。因变量的预测值。 “Residuals”残差。因变量的观测值和预测值的差。 “Prediction intervals”残差因变量的预测区间。 当选中“Prediction intervals”项时,可在该项下面的“Confidence interval”框中输入显著性水平。 本例子选中“Predicted values”项、“Residuals”项和“Prediction intervals”项。

“Predict cases”:当选择时间序列为自变量时,本栏设置一个超过数据时间序列的预测周期。其中各项的意义分别为:

“Predict from estimation period through last case”根据估计周期为所有的观测量提供预测周期。

“Predict through”当要预测的观测量超过当前的数据时间序列时,输入观测量的一个周期数值。 9)提交执行

在主对话框里单击“OK”,提交执行,结果将显示在输出窗口中。输出结果主要分两部分:第一部分是文本输出,给出了曲 线模型、各统计量、方差分析以及曲线方程系数,见图 3-3;第二部分是预测模型与分析数据的图形比较,见图 3-2。

有时 SPSS 在输出浏览窗口不会完全显示出来所有的文本,在文本框左下角显示了一个红色三角形来提示我们。可以使用鼠

标选中文本块,拖动鼠标把文本框扩大,直至显示出全部文本。

根据“曲线回归保存值设置对话窗口”的设置,SPSS 在数据编辑窗口增添如下变量:
? ? ?

fit_1 为线性预测值; err_1 为观测值和线性预测值的差值; lcl_1 和 ucl_1 分别为显著性水平为 95%的线性预测区间的上限和下限。

10) 结果分析

主要结果:

图 3-3 曲线回归的文字输出部分

图 3-4 回归方程模型图

分析:

建立回归模型:

根据图 3-3 中方程变量表得: y = 14.861706 - 11.890356/x 回归方程的显著性检验:

回归方程的方差分析表明:F=81.94,显著水平为 0.000。相关系数平方(R2)=0.91105。

从图 3-4 回归方程模型图中也可以看出模型拟合程度是很好的。

结果: 表明用“ y = 14.861706 - 11.890356/x”模型能很好地描述了水稻不同叶龄(x)对台湾稻螟蚁螟侵入后生存率(y) 影响的数量相关关系。


相关文章:
SPSS多元线性回归分析实例操作步骤
SPSS多元线性回归分析实例操作步骤 - SPSS 统计分析 多元线性回归分析方法操作与分析 实验目的: 引入1998~2008年上海市城市人口密度、城市居民人均可支配收入、五 年...
SPSS线性回归分析案例
SPSS线性回归分析案例_计算机软件及应用_IT/计算机_专业资料。SPSS线性回归分析案例 回归分析实验内容: 基于居民消费性支出与居民可支配收入的简单线性回 归分析 【...
第九章spss的回归分析
第九章spss回归分析 - 第九章 spss回归分析 1、 利用习题二第 4 题的数据, 任意选择两门课程成绩作为解释变量和被解释变量, 利用 SPSS 提供的绘制散点图...
SPSS中回归分析法运用
苏州科技学院 环境学院空测系 计量地理学论文 ——SPSS 软件 专业班级 学号姓名 XUYE 指导教师 2014 年 12 月 17 日 SPSS回归分析法运用摘要:本文通过运用...
SPSS回归分析案例_图文
SPSS回归分析案例 - 简单上手SPSS回归分析例子,还附带介绍了基本的统计学知识... SPSS回归分析案例_生物学_自然科学_专业资料。简单上手SPSS回归分析例子,还附带...
SPSS多元回归分析实例教程_图文
SPSS多元回归分析实例教程 - 多元回归分析 在大多数的实际问题中,影响因变量的因素不是一个而是多个,我们称这类回问 题为多元回归分析。可以建立因变量 y 与各...
第九章 spss的回归分析
第九章 spss回归分析 - 第九章 spss回归分析 1、 利用习题二第 4 题的数据, 任意选择两门课程成绩作为解释变量和被解释变量, 利用 SPSS 提供的绘制散点...
SPSS回归分析
SPSS回归分析_经济学_高等教育_教育专区。一、多元线性回归模型的设立根据所获得的进出口总值、进出口差额、利用外资额等数据,可以考虑下面 一个线性回归模型。 y ...
spss回归分析作业
spss回归分析作业_金融/投资_经管营销_专业资料。数据挖掘课程作业纸spss回归分析 统计与数据挖掘实验 学生姓名: 学号: 学院:经济与管理学院 指导老师: 专业: 日期...
如何用SPSS做logistic回归分析
如何用SPSS做logistic回归分析 - 如何用 spss17.0 进行二元和多元 logistic 回归分析 一、二元 logistic 回归分析 二元 logistic 回归分析的前提为...
更多相关标签: