当前位置:首页 >> 数学 >>

偏最小二乘回归模型在高校科技人员类型预测中的应用


  中国卫生统计

2010 年 6 月第 27 卷第 3 期

?275?

偏最小二乘回归模型在高校科技人员类型预测中的应用
  王园园
1, 2

  陈景武

1

   【 提  要】   目的   探讨某省高校科技人员类型的影响因素 ,建立偏最小二乘回归模型 ,对高校科技人员类型进行预 测、 判别 ,为今后高校科技人员的培养及其合理使用提供更加可靠 、 科学的理论依据 。方法   采用自编调查量表 — — — 高校 科技人员影响因素调查表对该省内高校科技人员进行随机抽样调查 ,采用 Chronbachπ sα系数和因子分析对量表的信度和 效度进行检验 ,运用 SAS 911 对收集的数据进行偏最小二乘回归分析 。结果  Chronbachπ sα系数 = 01781,表明调查表具 有较好的内在一致性信度 ,因子分析结果显示量表同时具有较高的结构效度 。偏最小二乘回归结果显示 ,该模型具有较 好的拟合优度 ,并符合专业上的解释 ,可为人事 、 科研和教育部门进一步完善高校科技人员培养机制提供理论参考依据 。 结论   偏最小二乘回归模型作为一种新兴的统计分析方法适合应用于高校科技人员类型预测的研究 。 【 关键词 】   偏最小二乘回归   科技人员类型   预测

  1983 年 S . Wold、 C. A lbano 等 人提出了一种新 型多元 统 计 分 析 方 法 — — — 偏 最 小 二 乘 回 归 ( partial least2squares regression, 简称 PLS ) 。偏最小二乘回归 分析提供一种多对多线性回归建模的方法 , 建立因变 量关于自变量的线形甚至非线形回归预测方程 , 特别 适用于当两组变量的个数很多 ,且都存在多重相关性 , 而观测数据的数量又较少的情况 。根据因变量个数 (单个或多个 )的区别 ,偏最小二乘回归模型分为两种 类型 ,多因变量的偏最小二乘回归模型和单因变量的 偏最小二乘回归模型 。该方法最初应用于计量化学领 域并获得成功 ,近年来被迅速推广到其他领域 ,如生物 信息学 、 社会科学等 ,并取得了较好效果 。本研究将该 方法应用于高校科技人员类型预测的研究 。 资料与方法
11 资料来源

〔 1〕

量化赋值后进行分析 。
21 统计方法 ( 1 )偏最小二乘回归分析的基本原理

该方法基本原理可以概括为 :“ 同时提取因变量 成分和自变量成分并使两者的协方差达到最大 ” 。具 体要求 : ① 各成分必须是原变量的线性组合 ,为了尽可 能多地携带原变量的变异信息 , 要求它们的方差达到 最大 ; ② 为了使自变量成分对因变量成分有最大的解 释能力或预测能力 , 要求两者的相关性达到最大。在 ①、 ② 条件下同时提取因变量成分和自变量成分。然后 分别实施自变量和因变量对自变量成分的回归 ,求得它 们被自变量成分解释后的残余信息 。以后每一步都是 对上一步残余信息的再提取。如此往复 ,直到提取出所 有成分。可见 ,各步骤实际上是对因变量和自变量的变 异信息逐步提取的过程 ,总信息量保持不变 ,各成分只 是对原变量的变异信息进行了重新分配 结果与分析
1. 量表的信度与效度检验结果
〔 2 - 5〕



为探讨高校科技人员的类型 , 本研究以某省高等 院校的科技人员为研究对象 , 采用二阶段分层整群随 机抽样方法 ,先随机抽取国家级 、 省级两个层次的 8 所 高校 ; 然后在学校内采用随机分层抽样抽取这 8 所高 校的学科带头人和一般科技人员为调查对象 。共发放 调查问卷 150 份 ,实际回收 120 份 ,回收率为 80% , 去 除数据不完整或存在逻辑错误的问卷 , 最终得到有效 问卷 114 份 ,有效率为 95% 。调查工具主要采用了自 己编制的高校科技人员影响因素调查量表 , 该量表分 基本情况 、 问卷和自我评定三部分 , 调查项目包括 : 专 业情况 、 本专业最新动向掌握情况 、 上网查文献频率 、 每天学习时间 、 是否担任行政职务 、 工作满意度 、 性格 等 29 项 ,分别定义为 x1 2x29 (表 1 ) 。为了进一步进行 统计分析 ,还需要按照变量类型对调查项目进行合理

量表的 Chronbachπ sα系数 = 01781 > 017, 表明调 查表具有较好的内在一致性信度 ,达到信度要求 。 对量表进行内容效度检验 , 因该量表在广泛查阅 相关文献并征求相关专家意见后经过多次修改而编制 完成 ,其内容效度可以接受 。对结构效度评价 ,采用比 较常用的探索性因子分析 ,结果显示 ,量表包括科技人 员的智力因素 、 非智力因素 、 教育环境 、 科研经历 、 学习 时间 、 工作压力等可能的影响因素 ,比较全面且与以往 文献资料考虑的可能因素大体一致 , 可以认为具有较 高的结构效度 。
2. 偏最小二乘回归分析结果

1. 山东省潍坊医学院预防医学系卫生统计教研室 ( 261042) 2. 潍坊市疾病预防控制中心传染病防制科 ( 261041)

以高校科技人员类型为因变量 Y (学科带头人为 1, 一般科技人员为 0 ) ,随机抽取 89 份问卷进行偏最小二 乘回归分析 ,剩余 25份问卷用于预测 。分析结果如下 :

?276?

C hinese Jou rnal of H ealth S tatistics, Jun 2010, V ol . 27, N o. 3

首先对自变量进行多重共线性诊断 , 鉴于篇幅原 因 ,对于自变量之间多重共线性检验的统计量就不详 细列 表 , 其 中 , V if ( x5 ) = 131523 > 10, 条 件 数 < = 7217716 > 10, 且 x1 、 x5 、 x7 、 x14 、 x28 等的方差比例 vp 均 大于 015,可认为这些自变量之间存在多重相关性 , 不 宜直接进行多元回归分析 , 故选用偏最小二乘回归对 数据进行分析 ,并由 SAS软件编程实现 。 由 SAS911 运行结果得 , 当自变量 X 选取因子个 数为 7 时 , PRESS 最小为 019050, 对自变量的累积解 释能力达到 76185% , 最后得到标准偏回归系数和偏 回归系数 ,结果见表 1。
表 1  偏最小二乘回归方程结果
变量 截距
x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13 x14 x15 x16 x17 x18 x19 x20 x21 x22 x23 x24 x25 x26 x27 x28 x29

择 0102 这个临界点比较合适 , 此时判别总正确率达到 7517 % , 同时使得灵敏度和特异度分别达到 7912 % 和 6918 % , 假阳性和假阴性也比较适中 。
表 2  不同临界值的 FPR 和 TPR 值
临界值
0. 02
FPR TPR

0. 96 0. 331 0. 811

0. 98 0. 382 0. 883

0. 302 0. 792

影响因素 所在学校 是否担任行政职务 学历 现技术职称 是否担任主要学术职务 掌握本学科最新动向 主要获取的资料 是否经常查阅外文资料 计算机查阅资料频率 是否了解本学科难题和空白薄弱环节 除工作外每天学习时间 是否愿意担任行政职务 较早有科研工作经历 主持科研工作的级别 每年参加继续教育次数 单位竞争氛围 单位人际关系 自己能力发挥程度 自己工作前景预测 符合自己兴趣 、 爱好 工作满意度 生活条件满意度 0. 0064 是否遇到伯乐 伯乐对的影响程度 性格外向程度 情绪 人际交往能力 是否适合当前工作 自己的工作压力

标准偏回归系数 偏回归系数
0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0670 0087 0164 0163 0217 1382 0054 1011 0465 0224 1127 0566 2514 0978 1136 0651 0986 0482 0123 0213 1004 0073 074 1059 0755 0075 0145 0232 0781 3. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0580 0874 0101 0180 0177 0229 1891 0078 1164 0525 0245 1225 0634 0281 01328 1381 0688 1444 0593 0162 0269 1079

-

-

图 1  数据资料的 RO C 曲线

-

-

   然后利用剩余 25 份问卷 , 可以绘出实测值与预测 值比较表 。由表 3 可见 , 可以认为偏最小二乘回归模 型能较好地拟合出该数据资料 。
表 3  实测值与预测值比较表
样本编号
1 2 3 4 5 6 7 8 9 10 11 12 13

预测值
0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 020 965 001 018 015 963 012 016 019 948 936 011 899

实测值
0 1 1 0 0 1 0 0 0 1 1 0 1

样本编号
14 15 16 17 18 19 20 21 22 23 24 25

预测值
0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 892 009 962 008 003 005 988 010 974 985 006 002

实测值
1 0 1 0 0 0 1 0 1 1 0 0

-

-

-

0. 1019 - 0. 1276 - 0. 1173 0. 0099 - 0. 0188 - 0. 0232 0. 0781

结    论 本文应用偏最小二乘回归方法 , 较好地解决了高 校科技人员类型预测研究中的影响因素间的多重共线 性问题 、 变量的量化问题以及影响因素的问题 , 得出了 比较符合专业解释的结论 。与一般多元分析方法比 较 , 偏最小二乘回归具有以下优点
〔 6, 7 〕

   由表 1 可见 , 其中影响比较大的因素是掌握本学 科最新动向 ( x6 ) 、 单位人际关系 ( x17 ) 、 主持科研工作 的级别 ( x14 ) 、 每年参加继续教育次数 ( x15 ) 、 伯乐对成 长的影响程度 ( x24 ) 以及性格外向程度 ( x25 ) 等 , 与同 类研究结果具有一致性 。 SA S 程序还可以给出判别临界值及判别分类结 ( 果 表 2 ) 。就是将每个样本的观察值回代得到的拟合 回归模型 , 并计算概率 P ( y = 0 | x ) , 并以多个数值 yc 为临界值 (即 y≤yc 则是一般科技人员 , 否则就是学科 带头人 ) 将样本判别为是学科带头人和一般科技人员 两类 , 然后与原始数据比较 , 计算灵敏度 、 特异度 、 假阳 性和假阴性 , 并将计算结果用 RO C 曲线表示 , 以确定 比较合适的临界值
〔 5〕

:

( 1 ) 对样本个数没有苛刻的要求 , 可以在样本个

数少于自变量个数的条件下建立回归模型 ;
( 2 ) 通过对成分的提取 , 能够在自变量存在严重

多重相关性时建立预测模型 。
( 3 ) 最终的预测模型中包含原有全部自变量 , 从

而最大限度地利用了数据信息 。
( 4 ) 在偏最小二乘回归模型中 , 每一个自变量 xi

。由表 2 和图 1 的结果可见 , 选

的回归系数将更容易解释 。 但如何有效消除自变量系统中与因变量无关的数

  中国卫生统计

2010 年 6 月第 27 卷第 3 期

?277?
p lanation, the m odel could be used as theo ry reference fo r personnel dep art2 m ent, research dep artm en t and education dep artm en t to consumm ate the train ing of scientific p ersonne1 in colleges. Conclusion  The p artial least square regression m odel cou ld be used to p red ict the sty le of the scientific personne1 in co lleges as statistic m ethod appearing recen tly.

据信息 , 并在有限的成分中最大限度地提高成分解释 能力 , 还需要进一步深入研究 。
Applica tion of Partia l L ea st Square Regression M odel on the Pred iction of Style of the Sc ien tif ic Personnel i n Colleges  
W ang Yuanyuan, C hen J ingw u. D ep a rtm en t of P reven tive M ed ic ine of W e ifang M ed ica l C o llege ( 261042 ) , Shandong

【 Key words】   Partia l leas t squa re reg ress ion m odel; S ty le
of sc ien tific p e rsonnel; P red iction

参  考  文  献
1. W old S, A lbano C, et al . Pattern reg ression: F ind ing and using regu larities
in m u ltivariate data. L ondon: A nalysis A pp lied Science Pub lication,

   【Abstract】  O bjective  To exp lo re the influence facto rs of the
sty le of the scien tific personne1 in co lleges, bu ild the p artial least square re2 g ression ( PL S ) m odel, p red ict and discrim inate the style, and supp ly m ore reliab le and scientific rationale to the training and in telligent use of scien tif2 ic p ersonne1 in colleges. M ethods  W e took our random sam p le w ith in 2 ven to ry done by ourselves — Inven to ry of Influence Factors of the C o lleges Scien tific Personnel in a p rovince, then tested the reliab ility and valid ity of the inventory by the C h ronbachπ s coefficient and facto r analysis, done par2 tial least square regression analysis w ith SA S 911. Results C h ronbachπ s coefficien t equ iled 01781, w h ich indicated the in ternal consistency reliability of the invento ry w as good, the resu lts of the facto r analysis ind icates the structu re valid ity w as good, too. The resu lts of the PL S analysis indicatesd the goodness 2of 2fit of the m odel w as good, w hich w as fit for the m ajor ex 2

1983. 2. 王惠文 . 偏最 小二乘 回归方 法 及其 应 用 . 北京 : 国 防 工业 出 版社 , 1999. 3. 张家放 . 医用多元统计方法 . 武汉 : 华中科技大学出版社 , 2002. 4. 钱国华 , 等 . 偏最小二乘法降维在微阵列数据判别分析中的应用 . 中

国卫生统计 , 2007, 24 ( 2 ) : 120 2 123.
5. 方积乾 . 医学统计学与电脑实验 . 上海 : 上海科学技术出版社 , 2006. 6. 黄亚明 , 等 . 基于神经网络的卫生科技人员科研业绩评价 . 中国卫生

统计 , 2004, 21 ( 1 ) : 14 2 16.
7. 蒋红卫 , 等 . 核偏最小二乘回归及其在医学中的应用 . 中国卫生统计 , 2007, 24 ( 30. 239 2 242.

(上接第 270 页 )

m eat (O R = 31950 ) 、 testacean (O R = 61550 ) . O n ion ( O R = 01222 ) 、 carrot (O R = 01296 ) 、 fin less eel (O R = 01375 ) 、 soybean m ilk (O R = 01327 ) and T ruffle and Seaw eed ( O R = 01129 ) w ere inversely associated w ith PHC.

内繁殖 ,其代谢产物能通过诱导产生干扰素和促细胞 分裂剂 ,促使免疫球蛋白抗体的产生 ,从而活化巨噬细 胞 ,提高了人体的免疫力 ,增强对癌症的抵抗能力 。 饮食因素 、 营养成分与原发性肝癌的关系十分密 切 ,也和今天人们的生活方式有密切的关系 ,应着眼于 〔 11 〕 以适合行为和科学的膳食指导为中心 , 以控制原发 性肝癌的发生 。本研究通过饮食因素与原发性肝癌发 生关系的流行病学探讨 , 为积极采取合理的膳食措施 防治肿瘤提供了一定的流行病学依据 。由于本调查主 要采用回忆法 ,因此不能排除回忆偏倚而使调查结果 的准确度受到影响 。我们期望今后能从更广更深的角 度对饮食因素与原发性肝癌的关系进行探讨 , 从饮食 的角度对防治肿瘤做更好的干预 。
A Ca se 2con trol Study on the D ietary Factors of Pa tien ts w ith Pr imary Carc in oma of L iver  Sun L ihong. Shangha i U n ivers ity
of Trad itiona l C h inese M ed ic ine ( 201203 ) , Shangha i

Conclusion  The study suggested that dietary factorsm ay w ou ld p lay an
im p ortan t role in PHC.

【 Key words】   P rim a ry carcinom a of live r; D ieta ry fac to r;
C ond itional log istic reg ress ion; C ase 2con tro l s tudy

参  考  文  献
1. 万得森 . 临床肿瘤学 . 北京 : 科学技术出版社 , 1999: 115. 2. 陈君石 . 癌症的膳食预防 . 中国肿瘤 , 1994, 3 ( 6 ) : 3 2 6. 3. B aum ann PC, H arshbarger JC. D ecline in liverneop lasm s in w ild brow n
bu llhead catfish after cok ing p lan t closes and env ironm ental PA H sp lumm et . Env iron H ealth Perspect, 1995, 103 ( 2 ) : 168.

4. 黄宏瑜 . 珠海市 水产品汞镉铅 砷 污染 状 况检 测 . 中 国公 共 卫生 , 1998, 14 ( 1 ) : 23. 5. 肖湘 . 黄鳝清除氧自由基作用的研究 . 天然产物研究与开发 , 2005, 17 ( 6 ) : 726 2 729. 6. Kang JH, S hi YM , Zheng HL. Effect of asso rb ic acid on hum ar hep ato 2
m a cell p roliferration and red ifferention. A cta Pharm acol S in, 1999, 20 ( 11 ) : 1019 2 1024.

7. 李干红 , 丁晓雯 . 大蒜抗癌机理 研究进 展 . 中国调 味品 , 2002, 283

   【Abstract】  O bjective  To exp lo re association betw een d ietary
facto r and p rim ary carcinom a of liver ( PHC ) so as to p rov ide scientific ba2 sis fo r p reven tion of PHC th rough healthfu l diet and life 2style. M ethods  C ase 2contro l study w as conducted 145 p atients w ith PHC from som e hosp i2 tal in Shanghai from Sep tem ber 2005 to D ecem ber 2007, and 145 con trols w ere su rveyed. C ontro ls w ere m atched to cases fo r age and sex. A ll of them w ere in terview ed w ith un iform questionnaires. C onditional logistic regres2 sion w as used fo r un ivariate and m ultivariate analysis. Results The sta2 tistic analysis indicated that PHC w as sign ificantly associated w ith sw eet2

( 9 ) : 14 2 17.

8. 姚菊峰 . 饮食因素与原发性肝癌相关性研究 . 护理学杂志 , 2003, 18
( 12 ) : 902 2 904.

9. 张宇晖译 . 中 国 健康 调 查报 告 . 第 1 版 . 吉林 : 吉 林 文史 出 版社 , 2006: 59. 10. L a V ecchia C, N eg ri E, D ecarli A , et al . risk factors fo r hep atoceuu lar
carcinom ain N o rthern Italy In t J C ancer, 1988, 42: 872 2 876.

11. 李李 , 博庆丽 , 周丽 , 等 . 脂肪肝危险因素的 M eta 分析 . 中国卫生统

计 , 2008, 25 ( 1 ) : 43.


相关文章:
偏最小二乘回归模型在高校科技人员类型预测中的应用_论文.pdf
偏最小二乘回归模型在高校科技人员类型预测中的应用_预防医学_医药卫生_专业资料。
偏最小二乘回归模型在科技人员人格特征研究中的应用_论文.pdf
【提要】 目的 探讨偏最小二乘 回归模型在某 省高校科技人员人格特征研究中的应用 , 为今后该省高校科技人员 的培养及其合理使用提供更加 可靠 、 学的理论参考...
偏最小二乘回归的神经网络模型在巷道围岩位移预测中的应用.pdf
偏最小二乘回归的神经网络模型在巷道围岩位移预测中的应用 - 偏最小二乘回归方法集
偏最小二乘回归模型在城市需水预测中的应用.pdf
偏最小二乘回归模型在城市需水预测中的应用 - 水文水资源 文章编号 :0559-
偏最小二乘回归与神经网络结合模型的应用.pdf
(华中科技大学 数学系,湖北 武汉 430074) 摘要:偏最小二乘回归是一种新型的...发展及人们的生活中发挥着巨大的作用,对城市用电量进 行科学的分析预测是...
偏最小二乘回归模型的改进研究_图文.pdf
北京工业大学 硕士学位论文 偏最小二乘回归模型的...武汉:湖北科学技术出版社,1999. [3]任若恩,王惠文....偏最小二乘回归及其在机组参数预测中的应用 2006 ...
偏最小二乘回归分析在均匀设计试验建模分析中的应用_唐....pdf
偏最小二乘回归分析在均匀设计试验 建模分析中的应用唐启义, 唐洁 ( 浙江大学...确定要提取的潜变量对数一般是应用预测残差平方和 PRESS ( P red icted R ...
单因变量的偏最小二乘回归模型及其应用.pdf
单因变量的偏最小二乘回归模型及其应用邓念武, 徐晖 ( 武汉大学水利水电学院 ...典型相关分析 和主成分分析的基本功能于一体, 将建模预测类型 的数据分析方法与...
偏最小二乘回归的应用效果分析.pdf
偏最小二乘回归的应用效果分析申艳 ,刘次华 ( 华中科技大学数学系 ,武汉 ...多重共线性 ; 偏最小二乘回归 ; 最小二乘回归 ; 主成分回归 中图分类号 ...
单因变量的偏最小二乘回归模型及其应用.pdf
单因变量的偏最小二乘回归模型及其应用邓念武 ,徐 晖 ( 武汉大学水利水电学院...线性回归分析 、 典型相关分析 和主成分分析的基本功能于一体 ,将建模预测类型 ...
偏最小二乘回归模型在织物厚度预测中的应用_论文.pdf
偏最小二乘回归模型在织物厚度预测中的应用 - 织物厚度是织物服用性的重要影响因素之一,通过分析影响织物厚度的组织参数,建立了织物厚度预测的偏最小二乘回归模型,...
OPLS在非线性偏最小二乘回归模型的应用.pdf
OPLS在非线性偏最小二乘回归模型的应用 - 为了解决隐含潜变量回(implic
回归模型预测技术中最小二乘法的改进.doc
技术中最小二乘法的改进_电力/水利_工程科技_专业...在应用回归模型进行负荷预测时,首先要确定模 型中的...哈尔滨工业大学出版社),1987 [4]刘梅.用电需求预测...
将偏最小二乘回归模型应用于非点源负荷预测_论文.pdf
偏最小二乘回归模型应用于非点源负荷预测_环境科学/食品科学_工程科技_专业...偏最小二乘回归模型应用于 非点源负荷预测 陈 馨 ,楚宪法 (1 .四川大学 ...
偏最小二乘回归模型在辽宁汛期降水预测中的应用_论文.pdf
偏最小二乘回归模型在辽宁汛期降水预测中的应用 - 第3 3卷第6 期 201 5
(真正的好东西)偏最小二乘回归=多元线性回归分析+典型....doc
密西根大学的弗耐尔教授称偏最小二乘回归为第二代回归分析方法。 偏最小二乘回归方法在统计应用中的重要性主要的有以下几个方面: (1)偏最小二乘回归是一种...
基于偏最小二乘回归的年用电量预测研究_图文.pdf
回归的年用电量预测研究_能源/化工_工程科技_专业...赵玉龙 2,张晓明 2 (1. 四川大学水利水电学院,...3 偏最小二乘回归模型在年用电量预测中的 应用 ...
一类基于偏最小二乘回归分析的成分数据预测模型_张忠诚.pdf
一类基于偏最小二乘回归分析的成分数据预测模型_张...第 40 卷第 2 期 华中师范大学学报 ( 自然科学...分析 中 , 成分数据是一种被广泛应用的数据类型 ....
121.偏最小二乘回归及其在机组参数预测中的应用浅析_图文.pdf
121.偏最小二乘回归及其在机组参数预测中的应用浅析 - 第25 卷增刊 200
偏最小二乘回归的原理及应用.pdf
偏最小二乘回归的原理及应用_理学_高等教育_教育...在一次计算之后即可同时实现预测建模以 及多变量系统...[J ]1 第四军医大学学 [ 6 ] M1 奥托 1 化...
更多相关标签: