当前位置:首页 >> 自然科学 >>

常用非参数统计方法


常用非参数统计方法
孙金芳 sjf_1128@126.com

流行病与卫生统计学系 东南大学公共卫生学院

概念复习
? 统计描述

? 数值资料 (P4 变量的分类)
? 集中趋势 — 平均数 (P9)
–算术均数:单峰对称分布(正态、近似正态分布)
–中位数: 偏态分布、分布不规则、开口资料

(位置指标,对分布不作要求)
2013-8-14 2

参数统计 VS 非参数统计
?参数统计(parametric statistics):已知总体分 布类型,通过样本统计量对总体参数进行估 计和检验。 ? : (x ? Z s , x ? Z s )
? /2 x ? /2 x

?区间估计:

?t检验: u1= u2 ?要求独立随机样本、取自 正态总体、方差齐性

? : ( x ? t? / 2,? s x , x ? t? / 2,? sx )

?非参数统计(nonparametric statistics):不依 赖总体分布类型,不对参数进行估计或检验, 通过样本观察值推断总体分布位置是否相同。
2013-8-14 3

非参数检验又称任意分布检验(distribution-free test)。

? 优点:资料分布特征要求较低,适用范围广,收集资料方便; 对不满足参数方法的资料,效率高。 ? 缺点:对适宜用参数方法的资料,若用非参数法处理,没 有充分利用资料提供的信息,导致检验效能下降。犯第Ⅱ 类错误概率比参数检验大。

非参数方法很多,主要介绍秩和检验(rank sum test) 。

2013-8-14

4

1 ? 4 ? 10 ? 11 ? 12 ? 13 ? 14 ? 15 ? 80

2 ? 3 ? 5 ? 6 ? 7 ? 8 ? 9 ? 16 ? 56

7 8 5 6 2 3 4 1

9 10

11 12

14 13

15

16

? 非正态分布:两个班同学(n1,n2)从高到低、 交错地排在队伍中,编号(即身高的秩次),若两 个班同学身高相近(排列均匀),则每个班所报数 字之和(秩和T)与其理论秩和相差不大。反之,

则有理由相信其中一个班同学的身高比另一个
班高。

? 比较 n1的秩和T与其理论秩和n1(N+1)/2,
这就是秩和检验的思想。
2013-8-14 6

秩和检验(rank sum test)
? 秩(rank):观察值从小到大排序,该序号在统
计学上称为秩/秩次;
?秩和:秩次求和得到;

?秩和检验:用秩和进行假设检验的方法。
秩(rank) → 秩和(rank sum) →秩和检验(rank sum test) 用数据排序的秩来代替原数据进行假设检验: 位置检验

适宜作非参数检验的资料
? 计量资料,总体偏离正态性或总体分布未知

? 等级资料:痊愈、显效、有效、无效;-、
+、++、+++; 心功能分级;烧伤程度?

±、

? 边界不确定的资料:如出现>50mg或 0.5mg以下

2013-8-14

8

两样本比较秩和检验
例 测得铅作业与非铅作业工人的血铅值 (μmol/L), 问两组工人的血铅值有无差别?
表 10.1 两组工人的血铅值 (μmol/L) 铅作业组 (1) 0.82 0.87 0.97 1.21 1.64 2.08 2.13 秩次 (2) 9 10.5 12 14 15 16 17 非铅作业组 (3) 0.24 0.24 0.29 0.33 0.44 0.58 0.63 0.72 0.87 1.01 n2=10 秩次 (4) 1 2 3 4 5 6 7 8 10.5 13 T2=59.5
9

n1=7
2013-8-14

T1=93.5

SPSS 软件检验正态性与方差齐性结果
正态性检验

group

Kolmogorov-Smirnova
统计量 .201 .174 df 7 10

Shapiro-Wilk
df 7 10 Sig. .162 .348

x

铅作业组 非铅作业组

Sig. 统计量 * .200 .863 .200* .919

2013-8-14

10

一、建立检验假设,确定检验水准
H0:铅作业与非铅作业工人血铅值分布的位置
相同,

H1:铅作业与非铅作业工人血铅值分布的
位置不同。 α=0.05

2013-8-14

11

二、计算检验统计量T 值
?混合编秩 0.24 0.24 0.29 0.33 0.44 0.58 0.63 0.72 0.82 0.87 0.87 0.97 1.01 1.21 1.64 2.08 2.13 遇有原始数据相同时,可分两种情况处 理:①相同数据在同一组,其秩次按位置 的顺序。②相同数据分在两组,均取其平 均秩次(10+11)/2=10.5。
2013-8-14 12

表 10.1 两组工人的血铅值 (μmol/L) 铅作业组 (1) 0.82 0.87 0.97 1.21 1.64 2.08 2.13 秩次 (2) 9 10.5 12 14 15 16 17 非铅作业组 (3) 0.24 0.24 0.29 0.33 0.44 0.58 0.63 0.72 0.87 1.01 n2=10 秩次 (4) 1 2 3 4 5 6 7 8 10.5 13 T2=59.5

n1=7

T1=93.5

2013-8-14

13

? 两组秩次分别相加 T1=93.5 T2=59.5 ?取较小样本的秩和记为统计量 T, 本例 n1=7,n2=10,取T=T1=93.5 ?两组合计的秩和为多少?
2013-8-14 14

?三、确定P值和作出推断结论
查附表12, n1=7, n2-n1=10-7=3, 原则:内大外小 双侧0.05 42-84

拒绝

42 接受 84 拒绝

按α=0.05水准,拒绝H0,接受H1,故认为 铅作业工人比非铅作业工人血铅值高。
2013-8-14 15

?正态近似检验,公式为:
u? T ? n1 ?n1 ? n2 ? 1? / 2 ? 0.5 n1n2 ?n1 ? n2 ? 1? / 12
i

当相同秩次较多时,
u uc ? C

C ? 1 ? ? (t 3 ? t j ) /( N 3 ? N ) j
j ?1

式中 t j (j=1,2,…)为第 j 个相同秩的个数
假定相同秩(即平均秩)中有 2 个 1.5,5 个 8,3 个 14,则

t1 ? 2 , t2 ? 5 , t3 ? 3 ,
2013-8-14

? (t

3 j

? t j ) ? (2

3

?2) ? (5 ? 5) ? (3 ? 3) ? 150
3 3
16

等级资料的形式
? 例10.2 用某药治疗不同病情的老年慢性支气管炎病 人,疗效见表10.2第(1)、(2)两栏,问该药对两种病 情的老年慢性支气管炎病人的疗效是否相同?
表 10.2 某药对两种病情的老年慢性支气管炎病人的疗效比较
疗效 单纯性 (1) 单纯性合 并肺气肿 (2)
(3)(1)(2) (4) = +

合计

秩次范围

平均秩次 单纯性 (5)

秩和 合并肺气肿

(6)=(1) (5) (7)=(2) (5)

控制 显效 有效 无效 合计

65 18 30 13 126

42 6 23 11 82

107 24 53 24 208

1~107 108~131 132~184 185~208 ―

54 119.5 158 196.5 ―

3510 2151 4740 2554.5 12955.5

2268 717 3634 2161.5 8780.5

常错误采用
2013-8-14

卡方检验
17

一、假设
? H0:两种病情病人的疗效分布相同。 ? H1:两种病情病人的疗效分布不同。 ? α=0.05

2013-8-14

18

二、计算检验统计量uc值
? 排秩 ? 求秩和 ? 统计量T 。n1=82,T=8780.5 本例n1=82,n2=126,n2-n1=44,已超过附 表12所列范围,

2013-8-14

19

u?

8780 .5 ? 1 / 2 ? 82 ? ?208 ? 1? ? 0.5 82 ? 126 ? ?208 ? 1? / 12
3 j

? 0.4974

? ?t C ? 1?

?tj

? ? ? ? ? ? ? ?

N3 ? N 1073 ? 107 ? 243 ? 24 ? 533 ? 53 ? 243 ? 24 ? 1? ? 0.8443 3 208 ? 208

?

uc ?
2013-8-14

0.4974 0.8443

? 0.541
20

? 三、确定P值和作出结论推断 ? uc<1.96, P>0.05,按α=0.05水准尚不 能拒绝H0,故认为本疗法对上述两种病 情的患者并未显示出不同疗效。 ? 卡方检验未考虑等级的强弱信息,秩和 检验更适合于单向有序分类资料。
2013-8-14 21

多个样本比较的秩和检验
多个组资料: 1 有序分类资料 2 定量资料,但其不满足正态性或方差 齐性 H检验(Kruskal-Wallis 法)
2013-8-14 22

例10.3 在研究白血病时,测得鼠脾的DNA含量如表 10.3第(1)、(3)、(5)、(7)栏。问不同病情的鼠脾 DNA含量有无差别?
表 10.3 不同病情的鼠脾 DNA 含量(mg) 正常脾 (1) 12.3 13.2 13.7 15.2 15.4 15.8 16.9 17.3 Ri ni 秩次 (2) 18 22 26 28 29 30 31 32 216 8 患自发性白血 病时的脾 (3) 10.8 11.6 12.3 12.7 13.5 13.5 14.8 秩次 (4) 8 13 18 21 23 24 27 患移植性白血病时 的脾(甲组) (5) 9.3 10.3 11.1 11.7 11.7 12.0 12.3 12.4 13.6 秩次 (6) 1 3.5 11 14 15 16 18 20 25 123.5 9 患移植性白血病 时的脾(乙组) (7) 9.5 10.3 10.5 10.5 10.5 10.9 11.0 11.5 秩次 (8) 2 3.5 5 6 7 9 10 12 54.5 8

134 7

2013-8-14

23

一、建立假设检验,确定检验水准
?H0:四种鼠脾DNA含量总体分布位置相同。
?H1:四种鼠脾DNA含量总体分布位置不同

或不全同。

? ? 0.05

2013-8-14

24

二、计算检验统计量
? ? ? ? 混合编秩: 由小到大排列,统一编秩 相同值:同组顺序编号,不同组取平均秩次。 计算各组秩和Ri (i=1,2,3,4) 计算统计量H值
m

12 H? ? n ? 3( N ? 1) N ( N ? 1) i ?1 i

Ri2.

12 ? 2162 481.522 123.522 54.52 ? 332.5 1762 12 ? ? ( ? 134 ? ? ) ? 3(? (44 ) 1) ? ? 3 32 ? 1? ? ? ? 44 32 ? 1??1) 157 15 14 ? 32(? (44 ) ? 8 9 8 ?
? 19.8991
2013-8-14 25

三、确定P值,作出统计推断
K=4, ni>5, H>?20.05(3),即P<?,因此拒绝H0,接受H1 认为四种鼠脾DNA含量总体分布位置不同或不全同 。

K=3,ni<=5, 附表13; K>3,最小样本例数>=5,H近似服从自由度为k1的卡方分布, ?2 界值表。

2013-8-14

26

等级资料(校正H)
? 例10.4某医生用三种方剂治疗某妇科病,疗 效如表10.4,问三种方剂的疗效有无差别?
表 10.4 三种方剂的疗效比较 疗效 (1) 无效 好转 显效 控制 Ri ni 糖衣片 (2) 48 184 77 52 86459.5 361 黄酮片 (3) 5 16 18 19 18116 58 复方组 (4) 13 36 11 17 18680.5 77 合计 (5) 66 236 106 88 秩次范围 (6) 1~ 66 67~302 303~408 409~496 平均秩次 (7) 33.5 184.5 355.5 452.5

2013-8-14

27

假设 H0:三种方剂疗效分级的总体分布相同。 H1:三种方剂疗效分级的总体分布不同或 不全同。 ? α=0.05 求检验统计量Hc

2013-8-14

28

? 864595 2 181162 186805 2 ? 12 . . H? ?? ? ? ? ? 3 ? ?496 ? 1? ? 13.0623 496?496 ? 1? ? 361 58 77 ?

? ?t C ? 1?

3 j

?tj

? ? ? ? ? ?

N3 ? N 663 ? 66 ? 2363 ? 236 ? 1063 ? 106 ? 883 ? 88 ? 1? ? 0.8746 3 496 ? 496

?

? ?

H 13.0623 Hc ? ? ? 14.9354 C 0.8746

2013-8-14

29

多个样本间的多重比较
当多个样本比较的秩和检验拒绝H0,认为各总 体分布位置不同或不全相同时,常需进一步 作两两比较的秩和检验,以推断哪两个总体 分布位置不同,或哪两个总体分布位置相同。 为此需进行组间的多重比较(multiple comparison)。

2013-8-14

30

配对符号秩和检验
? 主要用于配对数值变量资料的检验。
? 例 用过硫酸铵分光光度法和示波极谱法测定水中锰的含 量(mg/L),见表10.6第(2)、(3)栏,问两法结果有 无差别? 表 10.6 两种方法测得水中锰含量(mg/L)
样本号 (1) 1 2 3 4 5 6 7 8 9 极谱法 (2) 0.47 0.33 0.34 0.32 0.16 0.16 0.09 0.24 0.67 分光光度法 (3) 0.49 0.32 0.32 0.32 0.14 0.15 0.07 0.37 0.66 差值 (4) =(2)-(3) -0.02 0.01 0.02 0.00 0.02 0.01 0.02 -0.13 0.01 秩次 (5) -5.5 1 5.5 — 5.5 2 5.5 -8 3

2013-8-14

31

差值的正态性检验
正态性检验 Kolmogorov-Smirnova d 统计量 .333 df 9 Sig. .005 统计量 .602 Shapiro-Wilk df 9 Sig. .000

2013-8-14

32

检验的基本思想:
假定两种处理效应相同,则差值的总体分布 是以0为对称的,即差值总体中位数为0。

相当于这些差值按绝对值大小编秩,再冠以原来 的正、负符号,正秩与负秩在理论上是随机的,即正 、负秩和应相近。

配对设计资料主要是对差值进行分析。
2013-8-14 33

一、建立假设检验,确定检验水准
?H0:两种方法所测值总体分布位置相同,
即 M d ? 0 (差值的总体中位数为零)。 ?H1:两种方法所测值总体分布位置不同, 即 M d ? 0 (差值的总体中位数不为零)。

? ? 0.05
2013-8-14 34

二、计算检验统计量
①算出各对数值之代数差 d=xi-yi ②编秩 a:将差值的绝对值从小到大编秩
b: c: 当差值为0,则不计该例(n随之减少) 如两差值相等,则取其平均秩次

③给秩添加正负号
d>0的秩次为“+”;d<0的秩次“-”。

④ 分别求出差值为正与负的秩和,任取差值为
正或负秩和作为统计量。

=22.5, T- =13.5。 2013-8-14
T+

35

确定概率P
? ? ? ? ? ? 0.10 5-31 0.05 3-33 n=8。 0.02 1-35 0.01 0-36 T=22.5或T=13.5 原则:内大外小 P>0.10 按?=0.05水准,不能拒绝H0,尚不 能认为两种方法测定锰含量有差别。
36

2013-8-14

正态近似法(N>50)
n>50, 可利用秩和分布的正态近似法,

T ~ N (?T ,? )
2 T

其中

?T ? n(n ? 1) / 4
2 T

? ? n(n ? 1)(2n ? 1) / 24 T ? ?T u? 统计量 ?T
2013-8-14 37

正态近似法公式确定概率P:

Zc ?

T ? n(n ? 1) / 4 ? 0.5 n(n ? 1)(2n ? 1) ? (t ? t j ) ? 24 48
3 j

2013-8-14

38

统计学基本内容

统计分析
统计描述 计量资料和分类资料
统计图表
集中趋势

统计推断 计量与分类
理论分布 参数推断
抽样分布基础

科研设计

统计指标
离散趋势

非参数统计推断
卡方检验 秩和检验

调查设计

试(实)验设计
基本原则 基本要素

相关关系

参数估计 假设检验
2013-8-14 39

分析资料的步骤:
1、确定资料的类型: 分类资料、定量资料;

2、选择适当的统计方法;

3、作出统计推断结论。

定量资料的分析: t检验 Z(U)检验 (F检验)

分类资料的分析:

?

2

检验

参数统计和非参数统计
参数统计 (parametric statistics) 非参数统计 (nonparametric statistics) 不以特定的总 体分布为前提 不对总体参数推断, 比较分布或分布位置 适用范围广;可用于任何类型 资料(等级资料,或“>50mg”42)

已知总体分布类型,对 未知参数进行统计推断 依赖于特定分布类 型,比较的是参数

2013-8-14


赞助商链接
相关文章:
非参数统计论文
非参数统计论文_数学_自然科学_专业资料。非参数统计方法与实例在统计学中,最...我选取了两种比较常用的检验方法,即针对两 配对样本的 Wilcoxon 检验和针对两...
非参数统计模型
非参数统计第二次作业——局部多项式回归与样条回归 习题一:一、本题是研究...利用 样本去估计数学模型,常用方法有局部多项式回归方法,和样条函数回归 方法...
如何合理选择统计方法——常用统计学方法汇总
如何合理选择统计方法——常用统计学方法汇总_数学_自然科学_专业资料。如何合理...次大小作线性相关分析,对原始变 量的分布不作要求,属于非参数统计方法,适用范围...
非参数统计结课总结
关键字:符号检验、秩检验、ridit 检验 1、非参数估计的理解 对计量资料进行统计分析,常对计量资料进行统计分析,常用方法 有两类——参数统计和非参数统计。t ...
非参数统计小论文
非参数统计小论文_理学_高等教育_教育专区。结课交作业专用 常用非参数统计方法上饶师范学院 [摘要]本文就非参数统计分析其适用情形与优缺点, 并详细介绍几种非...
非参数统计教学大纲
针对非参数统计方法, 展开基本理论和方法的学习,课程内容依次介绍计数统计量、秩...理解计数统计量的概念; 了解最常用的计数统计量和符号检验及两点比较法。理解秩...
常用医学统计学方法汇总
常用医学统计方法汇总 - 选择合适的统计方法 1 连续性资料 1.1 两组独立样本比较 1.1.1 资料符合正态分布,且两组方差齐性,直接采用 t 检验。 1.1.2...
SPSS非参数统计
ps最常用的快捷键 PS抠图方法、技巧大集合1/2 相关文档推荐 《非参数统计》SPSS...SPSS 非参数统计大鼠对别 1 2 3 4 5 6 7 8 差数 11.5 -4.2 12.6 ...
参数统计与非参数统计、
样本统计方法一般分为两个大的分支—参数统计和非参数统计。非参数统计方法主要...参数统计常用于定距或定比数据。一是 t 检验,二是方差分析;三是相关性统计...
非参数统计课程设计
非参数统计分析》课程设计指导书 一、 课程设计的目的 加深理解本课程的研究方法,思想精髓,加强解决实际问题的能力,熟练 Excel,MINITAB,常用统计软件的应用. 掌握...
更多相关标签: