当前位置:首页 >> 兵器/核科学 >>

基于PTZ相机的运动目标检测与跟踪技术研究


RESEARCH OF DETECTION AND PTZ

TRACⅢG

MOVING

OBJECTS

BASED ON

CAMERAS

A Thesis Submitted to Southeast

UniVers时

For the Academic Degree of Master of

‘ ●

Engmeenng

BY
LU Y_u.chuall

SuperVised by Associate Pro£JIN Li.zuo

School ofAutomation Southeast U.niVersity

March 2010

川lllfII||||…II||11l|lI|!||l…川If||Il
Y1 76 1 368
东南大学学位论文独创性声明

本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。 尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过 的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料。与我 一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。

研究生签名:

辛叁巫5皇
I一/

日期:

ⅪI D,够.6

东南大学学位论文使用授权声明

东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印 件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质 论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布(包括 以电子信息形式刊登)论文的全部内容或中、英文摘要等部分内容。论文的公布(包括以电 子信息形式刊登)授权东南大学研究生院办理。

研触虢巡导师躲蚀期:兰(竺:兰乡

摘要

摘要
本文研究的是户外场景自然光条件下的实时视频分析技术,包括静态场景下的运动 目标检测算法和目标跟踪算法。 首先简单介绍了运动目标检测常用的三类方法:光流法、时域差分法和背景减除法 的基本原理,重点研究了目前最流行的背景减除法。在比较了滑动平均、中值、混合高 斯背景建模方法的实时性和检测效果的基础之上,选择基于时域中值滤波的w4背景建 模方法作为本文的研究对象。

针对原始妒算法需要缓存图像以及计算模型参数的运算量累积在模型更新时刻的
缺点,提出利用更新周期前一半数据的均值和方差过滤后面的数据,同时训练新的模型 参数。改进后的更新算法可以自适应的处理数据。此外,还介绍了一些快速算法,用它 们计算标准差、中值和相关系数,大大降低了算法的计算开销。改进后的W4算法可以 实时地、连续地检测场景中的运动目标。

由于原始的妒算法没有介绍阴影检测的步骤,本文还给了一种适合灰度图像阴影
检测的算法,利用当前图像与背景图像的归一化相关系数去除检测结果中的阴影。 目标跟踪方面,阐述了跟踪算法研究的三个核心问题:哪种目标描述方式适合跟 踪?应该使用哪些图像特征?以及如何对目标的运动、外表、形状进行建模?介绍了现 有各类跟踪算法的特点及它们的应用场合。 针对单目标随动跟踪问题,详细介绍了模板匹配跟踪算法和MeaIl ShiR跟踪算法。 讨论了目标模型的更新问题以及遮挡情况下的连续跟踪问题。针对固定场景的多目标跟 踪问题,介绍了一种简单的基于运动目标检测的区域对应算法,实现了监控场景中运动 目标的自动检测与跟踪。

关键词:运动目标检测;目标跟踪;W4;模板;均值偏移

Abstmct

ABSTRACT

0ver tlle paSt f.ew decades,scholarS haVe deVeloped 仃ack moVillg



n啪ber of algori也ms t0
scene

deteCt锄d

objects

in outdoor
can

scenes.

Object
background

detection

be acmeVed by building find



representation of me me model for each

called tlle

model觚dⅡlen

deViationS舶m

Backgroulld sub饿lction is tlle moSt popular detectiIlg metllod for

kom崦丘锄e. fIⅨc锄er嬲.After

comparing the reaJ-time perf.o珈1ance and detecting results of tlle 11Jmling aVerage,temporal mediall and IIlixture of Gaussian baCkgroulld model,we choose the W4 backgrouIld modeling

m甜lod.Shadow
coe伍cient
call

remoVaJ is越so cmcial矗w be used
t0 relnoVe

o功eCt

detection.The

no珊aJized

con.elation

tlle shadow in

gray images using me

constmcted

baCk毋.ound image.

nle ori西rlal W4 algorithm needs
model



bu彘r

p猢eters.A
caIl

to cache t11e images for caJculating廿1e new

new model updating memod is proposed.It iIlcludes“Ⅳo steps,firstly
are

t11e meall arld Vari柚ce of the first half saI】叩les is calculated,men they remailling algoritllm

used

t0

jfilter也e

da=‰meanWhile

the new model parameters is calculated.The improVed updating

process saI】1ple dala adaptiVely.N0t 011ly me memo巧requirement is reduced,

bln also tlle real—time

perfomallce

is guarameed,because t11e complltation

coSt

is

split

to



缸嘶es.IIl

additioIl,calculating stalldard deViation,mediall and correlation coe伍cients using
are

nle standard formula

complIta|tioI谢ly illtensiVe.W色佃缸oduce

some uSe如l pr0黟ammiI培

tecllIliques and faSt algoriⅡlms,wmch greatly e1111allce me real-tirne algorimm.
111ere
are

perfomance

of也e

n玳e

core

issues洫廿le research

of慨№g

algo珊皿:W11ich objeCt
of t11e existing

representation is suitable

for吮king?W11iCh image f.e绷盯es should be uSed?How should也e
shape of廿le

motion,印pe跏ce觚d
For siIlgle

ta唱et be modeled?A claSsification

仃acl(ing algorithms and the represemative works is

i曲∞duCed.

ta玛et-缸acl【i】咚problem,me teInplate matcKI培仃ackillg algoriⅡlm觚d Me趾
are

S11iR仃acl【il玛algorithm

desCribed iIl

deta主1.协get model updating and predictiVe扛achng
multi-伽苫et
tmcl【ing

when occluSion happeIlS is also discussed.For inn.oduCes


in僦ic
baSe
0n

sCen撕o,
moViIlg

siInple boullding rectallgle

co鹏spon曲坞algorimm,wllich
objectS

objects

detection a】goritllm,is imroduced.The moVmg

iIl tlle scenario is automaticly

detected a11d 1racked.

Key

Wbrds:MoVing Object Detection;Object Tracl【ing;W4;Templace;MeaIl Sllin
IlI

目录

目录
摘要…………………………………………………………………………………………………………………。I
ABSlRACT……………………………………………………………………………………III 目勇乏…………………………………………………………………………………………………………………一I

第一章绪论………………………………………………………………………………l 1.1引言………………………………………………………………………………………………………1 1.2国内外研究与发展现状……………………………………………………….3 1.3论文的研究内容和组织结构………………………………………………….4 第二章运动目标检测与跟踪的理论基础……………………………………………~7 2.1运动目标检测………………………………………………………………….7 2.1.1光流分割法……………………………………………………………..8 2.1.2时域差分法………………………………………………………………9 2.1.3背景减除法………………………………………………………………1l 2.2运动目标跟踪…………………………………………………………………1 3 2.2.1目标描述………………………………………………………………14 2.2.2特征选择………………………………………………………………~1 6 2.2.3跟踪算法分类………………………………………………………….1 6 2.3本章小结………………………………………………………………………20

第三章改进的妒运动目标检测算法……………………………………………….21
3.1背景减除法……………………………………………………………………21 3.2滑动平均单高斯背景模型……………………………………………………22 3.2.1背景模型初始化……………………………………………………….22 3.2.2运动目标检测…………………………………………………………22 3.2.3背景模型参数更新………………………………………………………22 3.2.4单高斯背景模型小结…………………………………………………23 3.3混合高斯背景模型……………………………………………………………23 3.3.1背景模型初始化………………………………………………………..24 3.3.2运动目标检测………………………………………………………….24 3.3.3背景模型参数更新……………………………………………………25 、3.3.4混合高斯模型小结……………………………………………………25
3.4

W4运动目标检测算法………………………………………………………..26 3.4.1背景模型初始化………………………………………………………27 3.4.2运动目标检测…………………………………………………………28 3.4.3背景模型更新………………………………………………………….29

东南大学硕士学位论文

3.4.4、扩背景模型小结………………………………………………………32 3.5阴影检测………………………………………………………………………32 3.5.1阴影的分类与常用的阴影检测算法…………………………………32 3.5.2利用归一化互相关系数去除阴影……………………………………34 3.6图像预处理和前景区域后处理………………………………………………36 3.7提高算法实时性的编程方法…………………………………………………37 3.7.1计算序列的标准差…………………………………………………….37 3.7.2寻找序列的中值………………………………………………………38 3.7.3利用积分图像加速阴影检测过程……………………………………39 3.8实验结果………………………………………………………………………39 3.8.1实时性与检测效果比较………………………………………………40 3.8.2形态学滤波和连通性分析…………………………………………….42 3.8.3阴影去除……………………………………………………………….43 3.9本章小结………………………………………………………………………44 第四章目标跟踪………………………………………………………………………..45 4.1模板匹配跟踪算法………………………………………………..:………….45 4.1.1相似度度量准则………………………………………………………45 4.1.2加速匹配搜索过程的方法……………………………………………48 4.1.3模板更新……………………………………………………………….50 4.1.4位置预测与遮挡判断………………………………………………….50
4.2

Meall Shifl目标跟踪算法…………………………………………………….5 l

4.2.1目标模型………………………………………………………………。52 4.2.2候选目标模型…………………………………………………………53 4.2.3目标模型和候选目标模型的相似度…………………………………53

4.2.4目标定位………………………………………………………一一54
4.2.5 4.2.6

Meall Smft算法步骤…………………………………………………。55 MeaIl SlliR目标跟踪算法小结………………………………………..56

4.3摄像头固定场景下的多目标跟踪……………………………………………56 4.3.1多目标跟踪的难点……………………………………………………56 4.3.2基于区域对应的多目标跟踪算法……………………………………57 4.3.3目标群融合分裂算法…………………………………………………58 4.5实验结果………………………………………………………………………6l 4.5.1模板匹配算法…………………………………………………………61
4.5.2

Mean SlliR算法…………………………………………………………63

4.5.3单目标随动跟踪效果…………………………………………………64 4.6本章小结………………………………………………………………………65 第五章总结……………………………………………………………………………67


目录

致谢………………………………………………………………………………………………………………….69 参考文献………………………………………………………………………………..7l 攻读硕士期间发表的论文……………………………………………………………一75

III

第一章绪论

第一章绪论

1.1引言
视频分析是一项综合了图像处理,模式识别和计算机视觉等学科的技术。世界是变 化的,现实世界中大量有意义的信息都存在于变化之中。动态图像可能为我们提供比单 一图像更丰富的信息。只有对图像序列进行分析我们才能认识和分析动态过程。基于视 频的运动分析在国民经济和军事领域有着广泛的应用,例如【l】: (1)军事上:用于对空监视中的多目标跟踪、机载或弹载前视红外图像中的目标检 测、导弹动态测量等方面; (2)商业上:用于第二代图像/视频编码(基于对象的编码技术),基于内容的视频检 索(多媒体数据库中视频的自动标记和检索),人机交互(计算机通过识别用户手势,执行 相应的操作,实现智能交互)和视频监控(在银行、海关、超市、码头等重要公共场所, 通过对这些场所中人的活动进行监测、分析,及时发现可疑行为并采取相应的报警措施) 等方面; (3)医学上:用于生物组织运动分析(显微镜下的细胞和X光或超声波下的器官)。 (4)体育上:用于辅助裁判和运动分析系统(通过提取运动员的动作,分析其各项技 术参数,从而提高运动员的训练水平,也可以作为体育比赛的自动裁判); (5)交通上:用于交通管理(实时收集交通统计信息,控制交通流,预防交通堵塞, 也可以进行违章车辆的检测)和自动驾驶辅助系统(基于视频的路径规划和障碍物主动避 让技术)。 现代社会,科技发展往往受到社会需求和经济利益的驱使。下面以视频监控为例, 说明视频分析技术的诱人经济前景及强烈的社会需求【2】。

分数字化的系统(DV洲R),再到第三代完全数字化的系统(网络摄像机和视频服务器)
三个阶段的发展演变。在这一过程中,视频监控系统与设备虽然在功能和性能上得到了 极大的提高,但是其仍然只是提供了视频采集、存储和回放等传统功能,未能摆脱需要 人类作为监控者的本质。然而由于人类生理上的弱点,注意力无法长时间保持集中,有 研究表明,监控者如果连续工作2个小时以上,其注意力将下降到监控要求的水平之下。 经验教训表明,事故的发生往往是由于大意引起的。如果系统能及时、主动发现可疑情 况并报警,则可以将监控人员从繁重的工作中解放出来,并可以避免由于监控人员大意 造成的事故。此外,如果监控系统能提供其他有效信息,则可大大拓宽其功能和应用领 域。 智能视频分析技术的发展可以解决这个问题。视频分析技术可以自动分析和抽取视 频源中的关键信息。利用计算机强大的数据处理功能,对视频画面中的海量数据进行高

20多年来,视频监控系统经历了从第一代百分之百的模拟系统(VCR),到第二代部

东南大学硕士学位论文

速处理,将用户不关心的信息过滤掉,仅仅为监控者提供有用的关键信息或更高层次的 信息。 智能视频监控系统能够识别不同的物体,发现监控画面中的异常情况,并及时发出 警报并提供有用信息,从而能够更加有效的协助安全人员处理危机,并最大限度的降低 误报和漏报现象。此外,智能视频监控还可以应用在交通管理、客户行为分析、客户服 务等多种非安全相关的场景,以提高用户的投资回报。例如:利用商场大堂的监视系统 自动识别VIP用户的特征,并通知客服人员及时做好服务工作;发现人群中有人不慎跌 倒时,及时通知附近的商场工作人员提供帮助;此外,还可以利用智能视频系统帮助零 售店的老板统计当天光顾的客户数量,分析销售情况等等。 智能视频的应用大体上可以分为安全相关应用和非安全相关应用两大类。 安全类相关的应用是目前市场上存在的主要智能视频应用,特别是在91 1恐怖袭击、 马德里爆炸案以及伦敦爆炸案发生之后,市场上对于此类应用的需求不断增长。这些应 用主要作用是协助政府或其他机构的安全部门提高室外大地域公共环境的安全防护。此 类应用主要包括:高级视频移动侦测(Adv锄ced VMD)、物体追踪(Motion Tracldng)、人 物面部识别(F2ucial Detection)、车辆识别(Vehicle Idemincation)和非法滞留(Object PerSistence)等。 除了安全相关类应用之外,智能视频还可以应用到一些非安全相关类的应用当中。 这些应用主要面向交通管理、零售、服务等行业,可以被看作管理和服务的辅助工具, 用以提高服务水平和营业额。此类应用主要包括:人数统计(People CouIltin蓟、人群控 制(Flow

Con加1)、注意力控制(觚ention Con仃01)和交通流量控制(Tr蕊c Flow)等。

随着“国家应急体系"、“平安城市”、“平安建设"、“科技强警"等重大工程项目在 全国的不断推进,国内视频监控市场前景一片看好。 此外,视频分析技术的发展已经并将继续改变人们的日常生活,归功于第二代图像 /视频编码技术(基于对象的编码,例如MPEG.4,H.264)的出现,多媒体才能成为应用的 主流,W.eb 2.0也得以兴起并蓬勃发展。如今,我们已经习惯了在网络上在线观看高质 量视频,而不再总是需要先下载然后才能观看,除了得益于通信技术的发展,更重要的 是利用第二代编码技术网络视频服务商可以根据带宽提供不同解析度的视频服务,克服 了以前严重观看效果的马赛克现象。美国麻省理工学院媒体实验室(MIT Media Lab)的学

生Pr锄av

Misny的研究工作可能会在不久的将来改变人类与计算机和数字世界交互的

方式。它发明了一套名为“第六感"的装置,拥有它,你就可以通过手势来对数字虚拟 世界进行操作,而不在需要那么多纷繁杂乱的输入设备(鼠标,键盘,扫描仪等等),自 由的在现实和数字虚拟世界之间进行穿梭。大家可以通过作者提供的演示视频感受其魔 力【3】。“第六感”使用的核心技术之一就是基于视觉的手势识别。 综上,视频分析的研究在科学技术研究和工程应用上都有十分诱人的前景,该技术 的发展已经改变并将继续改变人们的生活。



第一章绪论

1.2国内外研究与发展现状
近年来,随着视频数据的爆炸性增长,越来越多的学者和公司投入到视频分析技术 的研究中。 美国、英国等西方发达国家已经开展了大量的研究。例如:1997年,美国国防高级 研究项目署(DefenseAdvanced ResearCh ProjectsAgency)设立了以卡内基梅隆大学为首、

麻省理工学院等高校参与的视觉监控重大项目VSAMmsual

Surveillallce觚d

MoIlito血g),主要研究用于战场及普通民用场景监控的自动视频理解技术,对复杂环境

中的人和车进行监控14】。实时视觉监控系统妒不仅能够定位场景中的运动物体,还可
以判断是不是人、多个人还是一个人,然后分割出人身体的各个部分,并通过建立外观 模型来实现多人的跟踪,以及检测人是否携带物体等简单行为【5】【6】【7】。 此外,国际上一些权威期刊,如IJCV(Imemational CVⅣ(CornputerⅥsion
and

Jo啪a1

of ComputerⅥsion)、

and Image

UnderstaIldiIlg)、PAMI(IEEE

TraIls.on

Patt锄Analysis
Socie够
on

Machme Intelligence)、ⅣC(Image andⅥsion
Conference
on

C伽叩嘶ng)和一些重要的学术会议,如
Computer

ICCV(Imemational
Conference
on

ComputerⅥsion)、 CVPR(IEEE

CoInputerⅥsion and

Pan锄Recogmtion)、ECCV(European Confi玳nce

ComputerⅥsion)、IWVS(IEEE Intemational Wbrkshop 0nⅥsu越Surveillallce),都将视频 分析研究作为主题内容之一,为该领域的研究人员提供了广阔的交流舞台【81。 除了学术研究外,各个科技公司推出的商业产品也毫不逊色,几乎涉及了人们生活 的方方面面,上面所列举的应用领域几乎都有相应产品,具体产品和应用领域可以参见 计算机视觉产业【9】。 图1.1给出了基于视频的运动分析系统的流程图,运动分析一般包含如下四个主要 步骤: (1)运动目标的检测与提取:将场景中运动的物体提取出来; (2)运动目标的分类或识别:选择感兴趣的运动物体作为跟踪目标; (3)运动目标的跟踪:获得目标在整个图像序列中的位置和形状; (4)运动目标行为的理解与分析。

视频序列

图卜1基于视频的运动分析的流程图

其中,运动目标检测、识别、跟踪属于视觉中的低级和中级处理部分,而行为理解 则属于高级处理,涉及到计算机视觉、模式识别和人工智能等领域的相关知识,是视频 分析的最终目的。


奎堕奎堂堡主堂垡丝茎 运动目标检测和跟踪作为后续高层应用(行为理解与分析)的基础,国内外学者已经 对其做了大量而深入的研究,提出了许多算法,也取得了一定的进展,但是时至今日, 还没有出现一个能够适用于各种场合、各种情况的通用算法。现有的算法在稳健性、准 确性、可靠性和实时性的某个或多个方面存在着这样和那样的不足。一个通用、稳健、 准确、高效的运动目标检测与跟踪方法依然是一个极具挑战性的课题,难点主要源于如 下几点原因【l】【1 o】: (1)将物体从3D世界投影到2D图像平面造成的信息丢失。 (2)图像中可能存在噪声。 (3)目标的运动可能很复杂。 (4)目标本身不是刚体,而且没有规则的结构。 (5)目标可能会被部分或全部遮挡。 (6)目标形状可能很复杂。 (7)场景光照情况会发生变化。 (8)系统可能存在实时性方面的要求。

1.3论文的研究内容和组织结构
本文研究的是户外自然光环境下运动目标检测与跟踪问题,由于户外场景中颜色信 息可能无法获得,因此选择适合处理单色图像(灰度或红外图像)的算法。此外现代视频 应用系统都朝着嵌入式实时应用的方向发展,因此系统对视频处理算法的实时性要求越 来越高(标准PAL制视频每秒25帧,如果每一帧都要处理的话,则算法处理每副图像的 时间应该小于等于50ms)。单通道灰度图像虽然丢失了颜色信息,但是与多通道彩色图 像相比,其数据量更小,也有利于提高算法实时性。 高级处理算法的性能提升往往伴随着模型复杂度和算法运算量的提高,此外,正如 前面所提及的那样,一种通用的可以处理各种情况的算法至今仍未出现。所以本文的研 究并没有追求那些最先进最复杂的算法,而是兼顾算法性能与实时性,根据应用环境的 实际情况选择一些适合于实时应用的算法。在深入分析原有算法的基础上,借鉴相关的 研究方法,用一些处理小技巧进一步提升其性能。 论文各章节的内容安排如下: 第一章,首先阐述了视频分析技术的研究意义和应用前景,然后介绍了视频分析系 统的组成结构以及当前的发展现状,最后给出了本文的研究内容和章节安排。 第二章,分别讨论了运动目标检测和目标跟踪的研究内容与发展现状,并对已有的 算法进行了分类,在总结了各类算法的特点的基础上,简要介绍了一些代表性算法的原

理与设计思想。根据应用环境的实际情况,选择了本文将要研究的方法,即妒运动目
标检测算法和基于核的目标跟踪算法。 第三章,首先介绍了背景减除法的主要研究内容和运动目标检测算法的性能评价准 则,并扼要地给出了经典的滑动平均和混合高斯背景模型的算法步骤。接着详细讲解了


第一苹绪论

改进的妒运动目标检测算法的步骤及设计思想,改进算法可以实时地检测出场景中的 运动目标。在介绍了阴影去除算法的基础上,介绍了一种适用于妒背景模型的阴影去
除算法,它可以检测灰度图像中的阴影。最后给出了检测结果。 第四章,针对单目标随动跟踪问题,介绍了模板匹配跟踪算法和MeaIl SIliR跟踪算 法,讨论了目标模型的更新问题以及遮挡情况下的连续跟踪问题。针对固定场景的多目 标跟踪问题,介绍了一种简单的基于运动目标检测的区域对应算法,实现了监控场景中 运动目标的自动检测与跟踪。 第五章,总结了本文的主要工作。

第二章运动目标检测与跟踪的理论基础

第二章运动目标检测与跟踪的理论基础

2.1运动目标检测
相对于图像处理中利用空间信息进行目标分割而言,运动目标检测是指利用图像序 列中所包含的运动信息,判断场景中是否有运动的前景目标(如视频监控中行人,交通 管理中的汽车等),如果有,则将它从场景中提取出来,即确定运动目标在图像中所处 的位置和它所占的区域。


根据场景与摄像头之间的相对运动关系,运动目标检测通常可以分为: (1)静态场景下的运动目标检测:通常发生在摄像机相对静止的状态(如监视某一路 口车流量的固定摄像机),得到的视频序列没有全局运动(因摄像头运动引起的背景图像 运动)。只存在目标相对于摄像机的运动。这是最重要的情形,也是目前研究最多的情 形,因为目前许多视频应用都属于这种情况,如视频监控和交通管理。 (2)动态场景下的运动目标检测。通常发生在摄像机相对运动的状态(如装在卫星或 飞机上的监视系统,或者安装在云台上的摄像机经历了平动、旋转、或多自由度运动1, 得到的视频序列存在全局运动。目标和摄像头都发生了运动,它们之间可能存在复杂的 相对运动。这是最普通的一类情形,但也是研究起来最复杂的一类情形,目前这方面的 研究还比较少,理论还没有成熟,它将是下一阶段的研究重点。 此外,根据三维场景中运动目标距离成像传感器的远近,运动目标检测又可以划分 为以下三种情况: (1)微弱点状目标的检测,即目标距离成像传感器很远,它在图像平面上只有几个 像素大小,呈现为微弱点状目标,信噪比较低。主要用于军事领域。 (2)扩展目标的检测,即目标距离成像传感器较近,它在图像平面上表现为扩展目 标,一般指在成像平面上覆盖超过100×100像素的大型目标。 (3)介于上述两种情况之间,此时目标在图像平面上一般不超过loo×100像素,具 有一定的可视对比度。这也是最常见的一种情况。 这三种情况下的目标检测与跟踪各有其特点,处理方法差异很大。 本文主要研究静态场景下的运动目标检测方法,同时也属于上面的第三种情况。因 为这是目前应用最多的一种情形,研究它具有实际应用价值。 运动目标检测算法的任务是从图像中剔除静止的背景区域,找出运动的前景区域, 并尽可能地抑制背景噪声和前景噪声,以准确提取出感兴趣的运动物体。如图2.1所示, 运动目标检测一般会涉及到如下一些对象【lll: (1)运动目标:感兴趣的运动物体。 (2)背景噪声:没有被检测出来的前景目标区域(漏检)。 (3)前景噪声:被判断为前景,但却不属于任何感兴趣的前景目标的区域(虚警)。


东南大学硕士学位论文

(4)反射:在物体的边缘,或反射能力强的物体表面,由于光线不稳定而被当成运 动物体。 (5)阴影:运动目标在地面或其他物体上的投射阴影。 (6)鬼影:过去某时刻的运动目标进入背景模型,在当前时刻,先前被其覆盖的区 域被当成前景。 ‘(7)干扰:传感器固有噪声、摄像机抖动、以及背景中出现的周期性震荡的物体, 如晃动的树木,闪烁的显示屏,喷泉等。

图2.1运动目标检测中对象的关系图

静态场景的运动目标检测方法,归纳起来主要分为三类:光流分割法,时域差分法 和背景减除法【ll】【12】【131【141,三者各有优缺点,目前使用最多的是背景减除法。 2.1.1光流分割法 光流分割法通过分析光流场的连续性来检测运动目标,基本原理是:在恒亮度假设 和适当的平滑性约束条件下,根据图像序列的时空梯度估计图像中的每个像素点的偏移 向量,这样就得到了一个图像运动场,我们将偏移向量和图像运动场分别称为光流和光 流场。根据投影关系,图像上的点与三维物体上的点一一对应。如果图像中没有运动物 体,光流矢量在整个图像区域应该是连续变化的。当图像中有运动物体时,目标和背景 存在相对运动,运动物体所形成的速度矢量必然和邻域背景的速度矢量不同,找出光流 场的不连续边界便能检测出运动物体。 从20世纪70年代至今,光流场的计算一直都是计算机视觉领域中的一个研究重点。 光流估计算法,读者可以参考相关文献【15】,其中经典的算法有L.K(Luc器&KaIlade)法116J 和H.S(Hom&Schunck)法【171。 图2.2给出了L.K算法计算出来的稀疏光流场,两帧图像之间摄像头发生了转动, 所以计算出来的主要为全局运动分量。



第二章运动目标检测与跟踪的理论基础

(a)

(b)

图2-2 L-K法计算得到的稀疏光流场:(a)图像帧l;(b)图像帧2:


(c)

(d)

(c)计算得到的光流场,长度表示大小,箭头表示方向;(d)将光流场叠加到图像帧l上。

总的来说,光流法的优点在于基于光流场的连续性分割运动物体,原理直白,此外 光流不仅携带了运动物体的运动信息,而且还携带了丰富的与景物三维结构有关的信 息,该方法能够在不知道场景任何信息的情况下检测运动目标,也可以用于动态场景运 动目标检测。所以,在摄像机运动的场合,如汽车辅助驾驶系统,经常使用光流法检测 运动目标【18】。 然而,在实际应用中,由于遮挡、多光源和噪声等原因,使得光流基本方程的恒亮 度假设条件不能满足,无法求解出正确的光流场,因此计算出的光流分布不是十分可靠。 此外,大多数光流计算方法的运算量巨大,除非有专门的硬件支持,否则很难满足视频 流实时处理的要求。 2.1.2时域差分法 基于光流场连续性检测运动物体,往往需要计算图像中的每个像素点的光流(密集 光流,稀疏光流场无法找出运动物体完整的轮廓)。一般,图像中很大比例的点都保持 静止(或者只有简单的全局运动),计算这些点的光流需要大量时间,但是却没有意义, 如果只分析那些随时间变化的图像区域,效率会更高。此外,运动目标分割过程一般包 含多个处理步骤或者是一个迭代过程,减少处理区域可以消除大量可能出现的噪声点, 降低后续处理的难度,减少可能出现的问题。背景通常是静止的或者只有简单的全局运 动,所以可以通过简单差分或者运动补偿差分来消除背景。所以,有人提出了基于变化 的运动目标检测方法。 时域差分法就是利用视频图像序列中相邻两帧图像之间的强相关性,对相邻两帧图 像做差分或“相减运算",找出图像中变化区域,进而检测出运动目标。 最简单的做法就是将相邻两帧图像对应像素的亮度相减,得到差分图像,然后用合 适的阈值对差分图像进行阈值分割,提取图像中的运动区域。令厶(五y)表示视频序列 中的第七帧图像,则阈值分割得到二值图像B(x,y)可以由公式(2.1)描述:

曰(x,J,):{}I厶(x,y’_‘一-(x,y)l≥丁 【u,
else

(2.1)

其中: T为选择的固定阈值。


奎堕奎堂堡主兰垡堡茎 阈值选取直接决定了检测效果的好坏,阈值过低不能有效的抑制图像中的噪声,阈 值过高又将抑制图像中有用的变化。人工选择的固定全局阈值往往没有普适性,即需要 根据具体视频计算阈值。可以用双峰法,大津法(自适应阈值分割)计算分割阈值,也有 学者利用中值算法构造差分图像的阈值,取得了不错的效果。此外,除了全局阈值外, 还可以使用局部阈值分割算法。 Lipton【18】等利用两帧差分方法从实际视频图像中检测运动目标,然后对目标进行分 类与跟踪。如图2.3(d)(e)所示,该方法可以检测出相邻图像中运动目标经过的区域(包括 运动物体新覆盖的区域和离开后显露出来的背景区域),因此该方法提取的运动目标比 实际的要大,出现所谓的“双影”现象。另外,由于检测出来的区域是前后两帧相对变 化的部分,无法检测出重叠部分,导致检测到的运动物体存在“空洞”现象。 一种改进的方法是利用三帧差分代替两帧差分,又称对称图像差分法,它利用相邻 三帧图像做差分,能够更好的检测出运动目标的轮廓形状,如图2.3(f)所示,具体算法 由公式(2.2)描述:

B(x,y):j 1,l厶(x,y)一厶一?(x,y)l≥丁&I厶“(x,J,)一厶(x,y)I≥丁
‘~

(2.2)


【o,

else

CollillS等在其设计的VSAM系统中【4】,设计了一种自适应背景减除和三帧差分相 结合的混合算法,可以快速有效地检测出运动目标。

一一一 一一一
(a) (c) (d) (e) (f)

图2.3时域差分法运动目标检测效果图:(a)第k.1帧图像;(b)第k帧图像;(c)第k+l帧图像; (d)前两帧差分得到的结果;(e)后两帧差分得到的结果;(f)三帧差分得到的结果。

另一种改进方法就是利用累积差分图像ADP(accumulative di虢rclnce picture)技术检 测运动目标,该方法理论上可以检测出完整的运动目标。Jain等对该方法做了大量研究 【19】【201。ADP是通过将图像序列中的每一帧与参考帧进行比较,如果差分图像的某个像

素超过一定的阈值,则将ADP中对应位置的值加上1。令么艘表示后帧图像与参考图
像厶(x,y)做比较得到的累积差分图像,则可用公式(2.3)描述:

lO

第二章运动目标检测与跟踪的理论基础

么D昂(x,y)=0,彳D只(x,y)=彳D晖一l(x,J,)+色o(x,y)(2.3) 其中: 最。(x,y)表示第后帧图像厶(x,y)与参考图像厶(x,少)的差分图像阈值分割后得到的 二值图像。 当运动物体完全离开它的初始位置时,便能完整地检测出参考图像中的运动物体。 当然也可以生成只含静态分量的参考帧,然后可以下面的背景减除的思想就可以检测后 续图像序列中的运动目标。虽然理论上,利用累积差分图像技术可以得到完整的运动物 体,但是累积差分图像算法设置了较强的假设条件,例如静态背景(不存在诸如树枝, 喷泉之类的动态背景元素),物体只能做简单的刚体运动,如果条件不满足,将无法得 到正确的检测结果,所以很难将其推广应用。 综上所述,时域差分运动目标检测算法的优点是计算简单,而且对动态环境有着较 强的自适应性(对光照等环境变化不敏感),但一般不能提取出目标区域中的全部点(存在 “双影"和“空洞”现象),且得到运动边缘经常是断裂的,难以获得运动目标的完整 轮廓,导致检测到的运动目标信息不准确。此外,由于检测是以相邻图像之间的相对变 化为基础的,所以它还要求背景是绝对静止的(不存在诸如树枝,喷泉之类的背景元素, 且图像噪声污染不能太严重)。 2.1.3背景减除法 在摄像头固定不动的场合,如果在场景中不含前景物体时拍摄一副图像作为参考图 像(背景图像),然后将后续输入的视频图像序列与背景图像做差分,再对差分图像进行 阈值分割得到图像中的变化区域,然后对变化区域进行分析就可以提取出场景中的运动 物体,上面便是背景减除法检测运动目标的思想起源。 但是这种手动获取背景的方法需要人来判断场景中是否有前景目标,然后启动相机 获取背景图像,而在很多情况下很难在没有前景目标的情况下拍摄背景图像,比如繁忙 的高速公路上的车辆监控系统。更重要的是,背景会随时间变化,手动获取的背景无法 适应场景的变化。所以,人们提出了许多算法,通过数学的方法(如统计的方法)从视频 序列中生成背景图像(大多数情况下都是用一个数学模型描述背景图像中像素点的取值 情况,所以又称为“背景模型’’),并在算法运行的过程对背景模型进行更新,以适应 场景的变化。检测运动目标时,将输入的图像与背景模型相比较,那些显著背离背景模 型的区域便是图像中运动物体所在的位置。 1997年,W0en等人12l J首先在他们设计的人体检测与跟踪系统Pfmder中,利用背景 减除法检测行人,之后背景减除法开始流行,并成为静态背景运动目标检测的主流方法。 后续学者的研究极大的扩展了背景减除方法的应用范围和内涵。一些复杂的模型的已经 超出了“背景减除"字面所表达的含义。 在Pfinder中,为了描述背景,且适应背景随时间的缓慢变化,W托n提出对静态背

东南大学硕士学位论文

景中位置(x,y)处的像素点的颜色』(x,J,)取值(YUV颜色空间)进行统计建模,用一个三 维高斯分布,(x,y)~Ⅳ(JLl(x,y),∑(x,J,))描述该点颜色的取值,这是符合现实情况。∥(x,y) 和∑(x,y)是通过计算相邻N帧图像中位置(x,y)处像素点颜色的N个观测值的均值和协 方差得到的。得到背景模型后,对于输入图像,(墨y),计算,O,J,)属于分布 Ⅳ(JLl(x,y),∑(x,y))的概率,将那些与背景模型相背离的像素划分为前景。利用滑动平均 的方法,用输入图像的颜色值更新模型参数p(x,y)和∑(x,y)。除了可以用统计均值对背 景进行建模外,还可以用观测序列的中值对背景建模122J【231,由于中值不像均值那样会受 到外点的影响,所以检测效果优于平均值背景模型,它的缺点是需要缓存图像,而且它 不属于严谨的统计描述,无法衡量测量噪声,故差分阂值的选取还需要人工设定或用其 他技术计算。 Ga0【24】在其发表的文章中指出:用单高斯模型对户外场景进行建模并不合适,因为 户外场景光照情况比较复杂,可能存在阴影或反射,也可能存在诸如风中舞动的树枝、 波动的水面等复杂的动态背景元素,因此在图像中的某些特定的位置可能会观测到多个 物体。用多模统计模型描述背景像素的颜色分布是背景建模方法的巨大进步,它极大的

改进了背景减除法的检测性能和适用场合。Stau腩r和嘶mson【25】用混合高斯模型
MOG(Mixture ofGaussiaIl,又称高斯混合模型GMM,Gauss

Mi炳鹏Model)对图像中位

置(x,.y)处的像素颜色进行建模。算法执行过程中,将输入图像的像素颜色值与该点的 背景模型中的每个高斯分布进行比较,如果找到了匹配的分布,则更新匹配的高斯分布 的参数(均值和方差)及权重。如果未能到匹配的分布,则建立一个新的高斯分布,并将 它加入到该点的背景模型中,其均值就等于当前的颜色值,方差取一个较大的初值。根 据分布被匹配的频率计算分布的权重,并将权重最大的几个分布看成背景。根据其所匹 配的分布是否属于背景,将其划分为前景像素和背景像素。混合高斯背景建模检测效果 如图2.4所示,示例中使用的是灰度图像,其中背景图像是用背景模型中权重最大的高 斯分布的均值构成的。

一一一
(a) (b) (c)

图24混合高斯建模运动目标检测结果:(a)原始视频图像第100帧; (b)利用背景模型中权重最大的高斯分布的均值生成的背景图像;(c)背景减除的结果。 混合高斯背景模型由于更好的描述了现实场景,检测效果大大优于以前的背景建模 算法,它也是目前最好的背景模型之一。许多学者对其做了更深入的研究,提出了许多 改进方法。例如:有些学者尝试将混合高斯模型和其他技术结合起来,包括贝叶斯框架 【26J、图像所包含的深度信息、颜色和梯度信息、mean—shm分析技术和基于区域的信息,
12

第二章运动目标检测与跟踪的理论基础

进一步加强其检测性能。但是,后续研究也发现了混合高斯背景建模方法存在的一些不 足,首先,混合高斯模型是参数模型,其检测性能严重依赖于参数的选择,包括高斯分 布的数目以及模型学习速率,只有根据应用场合的具体情况选择合适的参数才能获得较

好的检测效果。此外,如果高斯分布数目超过2个,前景检测效率将严重下斛271。它无
法用较少的高斯分布处理快速变化的动态背景。学习率的选择也是一个问题,需要进行 权衡。学习率太低,无法适应背景的突然变化(如灯光的开启或熄灭)。如果模型更新太 快,又会将缓慢运动的前景像素更新到背景模型中,造成漏检。

为了克服这些问题,Elgalllnlal掣28】用非参数核密度估计技术对每个像素进行建模,
估计其概率密度函数。它可以迅速适应背景的变化,目标检测灵敏度也更高。此外,除 了利用位置(x,y)处的像素的颜色信息,作者还结合场景的空间信息进行分析。在减除 过程中,每个像素不仅与背景模型中的对应像素进行匹配,还与邻近的像素进行匹配, 因此,该方法可以处理摄像头抖动或背景发生细小的运动的情况。但是该算法需要缓存 最新的N帧图像数据。此外,高斯模型假设测量噪声满足高斯分布,也可以采用更一般 的模型假设。瞄m等12 7】借鉴视频压缩中码本(codebook)技术,用码本表示背景的中显著 状态分量,获得了很好的效果。算法可以自适应学习和更新背景模型,不需要缓存图像, 减除过程中只有简单的减法运算,实时性更好。 在某些特殊的场合,还可以用另外一种方式对背景进行建模,将图像序列中像素的 亮度变化描述为一些离散的状态,这些状态分别对应于现实场景中发生的一些事情。例 如,对于高速公路上的汽车跟踪问题,图像像素可能处在如下几种状态之一:背景f路 面),前景(汽车)和阴影(投射阴影)。

上面的方法都是对每个像素单独进行建模,N耐a等【29】通过对整幅图像进行特征值
分解的方式对背景进行建模,由于是对整幅图像进行操作,所以可以充分利用图像的空 间相关性,算法对光照不敏感。算法先将当前图像投影到特征子空间,然后通过复原图 像和实际图像的差别来检测运动目标。 总的来说,背景减除法的优点是原理简单,与光流法相比,算法鲁棒性更好,计算 量更小;与时域差分法相比,能够得到完整的目标区域,不会存在“双影”和“空洞" 现象,因此得到的运动目标信息(位置、大小、形状)也更准确。缺点是对光照突变等环 境变化敏感。因此背景减除法是摄像头固定场合运动目标检测的主流方法,目前相关研 究也主要集中于此,致力于寻找合理的数学模型来描述背景,以及设计相应的模型更新 策略以减小场景变化对于运动目标分割的影响。

2.2运动目标跟踪
目标跟踪是指对检测出来的感兴趣的运动目标,监控其在整个视频序列中时空变 化,记录目标在场景中从出现到消失期间,其位置、尺寸和形状等的变化,进而生成目 标的运动轨迹。换句话,就是在视频序列的每一帧中标记出被跟踪的目标。

东南大学硕士学位论文

由于第1.2节所提及的那些原因,目标跟踪是一个极具挑战性的课题,所以一般都 会通过设置一些假设条件将跟踪问题限制在某些特殊的应用场合。可以对目标的运动情 况或目标形状施加合理的限制来简化跟踪问题。例如,几乎所有的跟踪算法都假设目标 的运动是平滑的,不会发生突变。此外,根据先验知识,还可以进一步假设目标做匀速 运动或者匀加速运动。任何关于目标数目、大小、外表或形状的先验知识也可以用来简 化跟踪问题。 国内外学者已经提出了许多目标跟踪算法。它们之间的主要区别在于各个算法如何 解决如下三个问题【1o】:哪种目标描述方式更适合于跟踪?应该使用哪些图像特征?如何 对目标运动,外表和形状进行建模?其实,这三个问题没有最优答案,遇到具体跟踪问 题时,应该根据应用场合的具体情况以及后续处理(行为理解与分析)所需要的信息来选 择。

2.2.1目标描述 跟踪问题中,目标可以定义为任何感兴趣的物体(需要后续分析的)。例如,海上的 船只、公路上的汽车、天空中的飞机、路上的行人等都可能是某个特定应用领域重要的

跟踪对象。目标可以用它们的形状(Sh印e)和外表(appe删lce)来描迸儿¨。
跟踪领域常用的目标形状描述方式主要有以下几种: (1)点:可以用一个点(也就是质心,图2.5(a))或者一组点(图2.5(b))描述目标。一般 来说,点描述方式适用于跟踪目标较小的情形,目标只占据图像中极小的一块区域。 (2)初级几何形状:目标是用一个矩形或椭圆来描述的(图2.5(c)(d))。采用这种描述 方式的目标的运动,通常是用平移,仿射或投影变换来建模的。虽然初级几何形状更适 合于描述简单的刚性目标,也可以用于柔性目标的跟踪。

(3)目标剪影(silhoue能)和轮廓(conto岫:轮廓定义了目标的边界(图2-5(g)(h))。轮
廓内部的区域就叫做目标的剪影(图2.5(i))。剪影和轮廓描述适合于复杂的柔性目标的跟 踪。 (4)铰接的形状模型(anicul atI阳shape model):铰接目标的身体分成多个部分,各部 分之间以关节连接。例如,人体包括躯干、腿、手、头和脚,它们之间以关节相连。各 部分之间的关系可以用关节旋转模型描述,例如,关节角度。为了表示铰接的目标,可 以用椭圆表示各连接部分,如图2.5(e)所示。 (5)骨架模型:骨架可以通过对目标轮廓进行中轴变化得到。这种形状描述方式主 要用于目标识别,它可以用于对铰接目标和刚性目标进行建模,如图2.5(f)所示。

14

第二章运动目标检测与跟踪的理论基础

袄j处巡姣欲 穴j穴j困众穴
(a)(b) (c) (d) (e)

穴叠众穴
(f)
(g) (h) (i)

图2.5目标描述:(a)质心;(b)多点;(c)矩阵块;(d)椭圆块;(e)铰接模型; (f)目标骨架;(g)目标轮廓上的控制点;(11)完整的目标轮廓;(i)目标剪影。 目标外表特征的描述方式有很多,跟踪领域常用的有以下几种: (1)目标形状的概率密度(probabilit)r densities):目标形状的概率密度估计可以是参 数的(例如高斯模型和混合高斯模型),也可以是非参数的(例如Parzen窗和直方图)。目 标外表特征(颜色,纹理)的概率密度可以用由形状模型指定的区域(椭圆或轮廓的内部区 域)计算得到。 (2)模板(templates):模板可以用简单的几何形状或剪影得到。模板的优点在于它同 时包含了空间和外表信息。然而,模板只能表示某个特定的视角下的目标外表。所以, 它们只适用用于跟踪过程中目标姿态不会发生显著变化的场合。 (3)活动外表模型(active appearance model):活动外表模型是通过同时对形状和外表 进行建模得到的。一般,目标形状由一些标志定义。与基于轮廓的描述类似,这些标志 可以在目标边界上,也可以在目标区域内。每个标志都有一个外表向量,可以是颜色、 纹理或梯度幅值。活动外表模型需要进行训练,形状和与之关联的外表都是从样本集中 学习得来的,例如可以用主成分分析PCA(Principal
Component

Analysis)的方法。

(4)多视图外表模型:该模型可以描述不同视角下目标的外表。可以用给定的视图 生成一个子空间(subspaCe),用它来表示目标的不同视图。子空间法,例如主成分分析 PCA和独立成分分析ICA(Independent
Component

Analysis),可以用来描述外表,也可

以用来描述形状。该方法的缺点是需要提前获得目标的所有视图。 注意,也可以将形状描述和外表描述结合起来描述目标。一般,跟踪算法的选择与 目标描述方式紧密相关,而目标描述一般是根据应用场合的具体情况来选取的。如果被 跟踪的目标在图像中只占很小的一个区域,一般使用点来描述跟踪目标。对于那些形状 近似为矩形或椭圆的目标,用简单几何形状描述更合适。诸如行人之类,形状比较复杂 的目标,可以使用基于轮廓或剪影的描述方式。

东南大学硕士学位论文

2.2.2特征选择 选择合适的特征对于跟踪来说非常重要。应该尽量选择目标所特有的那些特征,这 样可以很容易地将目标从特征空间中找出来。特征选择往往和目标描述方法紧密相关。 例如,基于直方图的外表描述一般使用颜色特征,而基于轮廓的描述一般用目标边缘作 为特征。许多算法都是用下面特征的组合进行跟踪的。 (1)颜色:目标的颜色主要受两个物理因素影响:光源的功率谱分布和物体表面的 反射属性。图像处理领域,一般使用RGB颜色空间。但是,RGB与人类的感知系统并 不一致,也就是说RGB中颜色的差别并不等同于人类感知到的色彩差异。此外,RGB 空间的三个分量之间并不是独立的。相比之下,三幸材幸1,和三木口奎6颜色空间是与人类感 知系统相一致的颜色空间,HSV颜色空间也近似符合人类的感知系统。但是这些颜色空 间容易受到噪声的干扰。总之,无法确切的说哪个颜色空间更有效,它们都可以用于跟 踪。 (2)边缘:目标边界附近,亮度一般存在较大的差异。边缘检测就是找出这些差异 较大的区域。相对于颜色特征而言,边缘特征对光照不敏感。跟踪目标边界的算法一般 都使用边缘特征。 (3)纹理:纹理是物体表面亮度变化的一个度量,它定量地描述了物体表面的光滑 和规则程度。与颜色特征相比,纹理需要额外的步骤生成描述子。常用的纹理描述子包 括:灰度共生矩阵(Gray.Level
Cooccun.ence

Ma.trices),Law’s纹理测量,小波变换和变

方向金字塔变换。与边缘特征类似,纹理特征对亮度变化不敏感。 大多数情况下,特征是由用户根据应用需求人工选取的。目前,也有人研究将模式 识别领域的自动特征选择技术结合进来加强跟踪。在所有特征中,颜色在跟踪领域使用 最广泛,但是,大多数颜色频带对光照变化敏感。所以在光照变化不可避免的情况,也 可以和其他特征结合起来描述目标外表。 2.2.3跟踪算法分类 目标跟踪包括提取图像中感兴趣的运动物体和建立各帧图像中检测到的运动物体 之间对应关系,二者可以分开执行,也可以一起完成。前一种跟踪方法,先利用前面讨 论的运动目标检测算法提取每一帧图像中可能属于运动目标的区域,然后再用匹配的方 法建立各个目标之间对应关系。后一种跟踪方法,目标区域提取和匹配是通过迭代更新 前几帧目标位置和区域信息得到的。 两种跟踪算法中,目标都是用第2.2.1节中介绍的形状或外表模型描述的。选择的 目标描述模型限制了目标所能经历的运动和形变方式。如果目标是用一个点表示的,那 么只能用平移模型。如果目标是用几何形状描述的(例如椭圆),使用参数运动模型更合 理(例如仿射或投影模型)。它们可以近似描述场景中刚体的运动。对于柔性物体,剪影 和轮廓是最具描述力的表示方式,参数和非参数模型都可以用来描述它们的运动。
16

第二章运动目标检测与跟踪的理论基础

此外,根据跟踪目标的数目,又可以分为单目标跟踪和多目标跟踪。 如图2.6所示,Alper【101根据算法所使用的目标描述方式,将跟踪算法分成三大类: 基于点的跟踪,基于核的跟踪和基于轮廓的跟踪。作者还对这三类算法做了进一步细分, 并给出了各类跟踪算法的代表性论文,参见表2.1。
表2.1各类跟踪算法代表性作品
类别 点跟踪(Point Tracker) 确定性方法 MGE tracker【Salari methods)
and Sethi l

代表性文章

990】

(Dete皿iniStic
统计学方法

GoA tracker【Vee舯锄et a1.2001】
Kalman Panicle

filter【Broida

and

ChelI印pa 1 986】

(Statistical methods)

filter【T觚iza虹l 987】
and Fo陀man 1

JPDAF【Bar.Shalom PMHT[S仃eit 核跟踪(Kemel Tracker)

988】

and Luginbuhll

994】

基于模板和亮度的外表模型
(Template锄d densit)r based

Me锄一shiR【ComaIliciu et a1.2003】 KLT[Shi锄d TomaSi 1994】

印pe跏ce models)
多视图外表模型 (Multi—View appear锄ce models) 轮廓跟踪(Contour Tracker) 轮廓演化 (Contour evolution)

Lay嘶ng【1'ao et a1.2003】
Eigen-仃ac“ng【Black SVM仃alcker【AVidan
and Jepson 1 200

998】

1】

State space

models【lsard

and Blake 1

998】

V,矾ational metllods【BeTtalmio et a1.2000】

形状匹配 (Matching sh印es)

methods[Ronf捌1994】 Hausdo嘟Huttenlocher et a1.1 993】 Hou曲t瑚sfo册【Sato锄d AgganⅣl 2004】 Histo目-锄【Kang et a1.2004】
Heuristic

图2石跟踪算法的分类

17

东南大学硕士学位论文

1.点跟踪 图像中检测出来目标是用点来表示的,然后根据目标以前的状态,例如目标的位置 和运动状态,将这些点关联起来,如图2.8(a)所示。该方法需要利用其他方法检测每帧 图像中的目标。点对应本来就是复杂的问题,尤其在目标发生了遮挡、出现了误检、目 标进入场景和目标离开场景时。点对应方法大体上可以分为两大类:确定性的方法和统 计学的方法。 确定性方法利用各种运动假设来限制对应问题,算法每一对匹配对象定义一个惩罚 函数,然后利用组合优化方法找到最优组合,例如HuIlganlan算法或贪心搜索算法。一 般根据下列限制的组合来定义匹配惩罚: (1)(空间位置)靠近假设:相邻两帧之间目标位置的偏移不会太大,图2.7(a)。 (2)最大速率约束:设定目标移动速度的最大值,将匹配限制在目标周围的一个环 形邻域内,图2.7(b)。 (3)运动平滑性约束:目标运动的方向和速度都不会发生剧烈变化,图2.7(c)。 (4)运动相似性约束:小范围内,目标上各点的速度应该相似。该限制适合于用多 个点描述的目标,图2.7(d)。 (5)刚性约束,假设3D世界中所有物体都是刚体,因此,实际物体上的任意两点之 间的距离应该保持不变,图2.7(e)。

(a)

(b)

【c)

(d)

(e)

图2.7各种运动约束:(a)靠近约束;(b)最大速速约束;(c)运动平滑性约束;(d)相似运动约束; (e)刚体约束。其中△、o、x分别表示目标在第k-2帧、第k-1帧和第k帧图像中位置。

需要注意的是,这些限制并不局限于确定性对应方法,它们也可以用于下面的统计 学的对应方法。 视频传感器得到的测量量难免会包含噪声,除此之外,目标运动也可能会受到随机 扰动,统计学的对应方法同时考虑测量量和模型噪声来解决跟踪问题。它利用状态空间 法对目标的状态进行建模,例如位置、速度和加速度。测量量一般是目标在图像中的位 置,可以通过运动目标检测的方法得到。

用状态序列∥:,=1,2,...表示目标信息,状态随时间的变化满足状态方程(2.4):
X。=厂‘(X卜1)+∥’,其中形‘:r=1,2…是白噪声 测量量与状态之间的关系可以用测量方程(2.5)描述: Z’=∥(X‘,Ⅳ‘),其中Ⅳ’是与形‘无关的白噪声 (2.5) (2.4)

18

第二章运动目标检测与跟踪的理论基础

上面两个方程描述的动态系统,理论上的最优解可以用迭代贝叶斯滤波的方法得 到,它包含两个步骤:预测步骤利用状态方程和f—l时刻计算得到的概率分布推导当前

状态的先验概率分布,即p(X‘lZk..产1)。然后,更新步骤利用当前测量的似然p(Z‘lF)
计算后验概率分布,即p(X‘I Z1’…,r)。 如果.厂f和∥是线性函数,而且初始状态X1和噪声都满足高斯分布,则最优状态估 计可以用卡尔曼滤波(Kahn锄Filter)得到。如果.厂f和∥是非线性函数,将它们线性展开 再用卡尔曼滤波也可以找到最优估计,称为扩展卡尔曼滤波(Extended
KalmaIl

Fiher)。更
Finer)

一般的场合,如果目标状态不满足高斯分布,状态估计可以用粒子滤波(Particle 得到。

单目标状态估计利用上面的迭代过程直接可以得到,使用卡尔曼或粒子滤波跟踪多 个目标时,在使用这些滤波器之前需要利用数据关联技术解决对应问题,即确定各个目 标当前状态所得到测量量(例如目标位置)。目前,使用最多的数据关联技术有
JPDAF(Joint Probabil时Data缸Socimon Filte血g)和MHT(MU邱le Hypo也esis

mLcking)。

2.基于核的目标跟踪 核就是目标的形状和外表。例如,核可以是一个矩形模板,或者是一个椭圆形状以 及与其相关联的直方图。通过计算相邻帧之间核的运动来跟踪目标,图2.8(b)。其运动 往往遵循参数模型,例如平移、旋转和仿射。这类算法的区别主要在于所使用的外表模 型,跟踪目标的数目和估计目标运动的方法。根据所使用的外表模型将这类方法分成: 基于模板和密度的外表模型和多视图外表模型。 其中,利用基于模板和密度的外表模型的跟踪算法,由于相对简单而且运算量较低, 应用非常广泛。本文将在第四章详细介绍此类算法中的模板匹配跟踪算法和Meall 跟踪算法。 利用基于模板和密度的外表模型的跟踪算法,外表模型(直方图,模板等)一般都是 在线生成的,它描述了最近几帧中搜集到的目标信息。目标在不同的视角下看起来并不 一样,如果跟踪过程中目标视角发生了剧烈变化,以前得到的外表模型可能会失效,导 致无法继续跟踪目标。为了克服这个问题,可以离线学习目标不同视角下的模型。多视 图外表模型需要大量的先验知识和离线学习的过程,只适用于固定已知目标的跟踪。 3.轮廓跟踪 跟踪是通过估计每一帧中目标所占的区域来完成的。轮廓跟踪算法利用目标区域内 部所包含的信息。可以以外表密度或形状模型的方法给出,形状模型往往是利用边缘信 息。如图2.8(c)(d)所示,给定目标模型,可以用形状匹配或轮廓演化的方法跟踪目标。 这两种方法本质上都是在时域中利用以前的图像中所包含的信息进行目标分割。 此类算法比较复杂,一般用于需要得到完整目标区域或高级行为理解的场合,感兴 趣的可以根据文献【l o】的介绍自行阅读相关的文献。
SlliR

19

东南大学硕士学位论文

(a)

(b)

(c)

(d)

图2.8跟踪方法示意图:(a)多点对应;(b)矩形块的参数变换; (c),(d)两个轮廓演化的例子

2.3本章小结
本章首先介绍了运动目标检测方法的分类,重点讨论了静态场景下的运动目标检测 算法。 静态场景下的运动目标检测主要有三类方法:光流法,时域差分法和背景减除法, 简单介绍了三类方法的基本原理及各类方法中代表性算法。光流法既可以用于静态场景 运动目标检测,也可以检测动态场景中的运动目标,但是计算量大,而且算法鲁棒性不 强。时域差分法计算简单,对光照变化不敏感,但是无法获得完整的目标区域,此外差 分图像阈值的选取也是一个值得研究的问题。目前使用最多的是背景减除法,理论上它 可以得到完整的目标区域,但是它对光照变化敏感。 接着,讨论了目标跟踪问题。 首先指出目标跟踪算法研究的三个核心问题:哪种目标描述方式更适合于跟踪?应 该使用哪些图像特征?如何对目标运动,外表和形状进行建模?然后,列出了常用的目 标描述方式和跟踪中常用的图像特征,并介绍了实际应用时跟踪算法的选择依据。最后 给出了现有的跟踪算法的一种分类及各自代表性的文献,并简要介绍了各类算法的基本 原理和特点。 根据上面的介绍了,确定了本文的研究内容,即背景减除法运动目标检测和基于核 的目标跟踪算法。

第三章改进的妒运动目标检测算法

第三章改进的W4运动目标检测算法

3.1背景减除法
正如第2.1.3节所介绍的那样,背景减除法原理直白、检测速度快,可以检测缓慢 运动的目标并能抑制“空洞”和虚假目标区域(阴影和背景扰动带来的误检)的影响,能 够得到比较准确的目标信息(位置、大小、形状)。要想将背景减除算法付诸实际应用, 通常需要解决如下几个问题: (1)背景获取问题:获取背景图像最简单的办法是在场景中没有前景目标的情况下 拍摄图像,但是在实际应用中往往很难满足这种要求。即使能用这种方法获取背景图像, 由于场景会发生变化,例如光照或背景构成发生变化,直接获取背景图像的方法难免中 看不中用。一般都是通过某种数学方法从视频序列中自动生成背景图像(或背景模型)。 (2)背景扰动问题:背景减除法本质上也是一种基于变化的运动目标检测方法,背 景中可能有动态背景元素,例如在风中摇曳的树枝、波动的水面、喷水池等,它们也是 背景的一部分,但是如果不做适当的处理,直接利用当前图像和背景图像做差分,然后 进行阈值分割,可能被判断为前景目标。 (3)环境变化问题:户外环境,场景的光照会随时间发生变化,此外,天气变化(晴 天和阴天的区别,天上的云朵挡住了太阳)也会改变环境光照,这些情况会严重影响检 测效果。 (4)背景构成发生变化的问题:先前背景中的静止对象可能会移动位置,例如停车 场中的汽车开走后显露出来的背景区域;前景运动目标也可能停留在场景中,覆盖了原 先的背景区域。这两种情况下,应该及时的将显露出来的背景区域和停留在场景中的运 动目标学习到背景模型中。 (5)运动目标投射阴影问题:由于光线是沿直线传播的,由于运动目标挡住了环境 光线,场景中会存在阴影,阴影也可能被检测为前景目标,好的算法应该可以消除前景 区域中的阴影部分。 解决第一个和第五个问题需要回答:利用哪种数学模型表示背景更合理?具体包括 如何从图像序列中自动生成初始模型和如何根据背景模型检测场景中的前景目标。解决 中间的三个问题需要回答:如何更新背景模型以适应场景的变化? 背景模型更新一般有两种方式:第一种是选择性更新,当像素被判断为背景时,才 将其更新到背景模型中。另一种是强制更新,只要是新的像素块,不做判断,直接更新 到背景模型中去。显然第一种方法更有利于运动目标的检测,因为属于前景目标的像素 块不会被学习到背景模型中去。但是在发生误检时,即将前景目标判断为背景,就会影 响后续处理,严重时会进入某种意义上的“死锁"状态,造成检测失败。强制更新方法 则不会出现这种情况,因为它会学习属于前景的信息,所以需要抑制前景信息对背景模
21

东南大学硕士学位论文

型的影响。

运动目标检测算法的评判依据一般包括: (1)算法精确度:算法应具有较少的漏检(将属于前景目标的区域分割成背景)和误检 (将属于背景的区域分割成前景),并且能够得到运动目标尽量完整的信息(运动目标的位 置、大小和形状); (2)算法复杂度:在保证算法处理效果的前提下,算法的时空复杂度应尽可能小, 以保证算法的实时性与实用性; (3)算法通用性:算法对先验信息(色彩、形状、运动和应用场景等)的依赖程度应尽 可能低。

3.2滑动平均单高斯背景模型
3.2.1背景模型初始化

自动生成背景图像最简单的方法是时域平均法,它利用图像中位置(x,y)处像素最 近一段时间内的所有观测值的均值生成背景图像,还可以同时统计观测值的标准差作为 差分图像分割阈值的选择依据。最早是由Wkn【2l】提出并用于其设计的行人监控系统 Pfinder。该方法又称为单高斯背景建模,简单的算法描述如下:

假设图像中位置(x,y)处像素的观测值服从高斯分布Ⅳ(“,砰),则背景图像可以用
公式(3.1)表示: 尽(x,y)=“(x,y)
(3.1)

模型参数“和仃?可以通过计算某段时间内图像序列中该点像素观测值序列的均值
和方差得到。 3.2.2运动目标检测

生成背景图像后,就可以检测后续视频序列中的前景目标。令‘表示输入的图像, 对于‘中每一个像素‘(x,y),如果它与“(x,y)的偏差超过一定的阈值,则其属于前景 像素,否则为背景像素,如公式(3.2)所示:

驰∽科慧k@∥).从掣蜘叭训’

@2,

3.2.3背景模型参数更新

为了适应场景随时间的变化,例如光照变化,需要对模型进行更新。可以利用初始 化的方法利用最新的观测值序列计算模型参数,也可以用滑动平均的方法自适应更新模

第三章改进的、矿运动目标检测算法

型参数。滑动平均法相对于原始根据定义重新计算均值和方差的方法,计算量更小,所 以速度更快。而且,原始算法还需要缓存最新的N帧图像,需要大量的存储空间,滑动 平均是自适应更新,不需要缓存图像数据瞄】。模型更新公式描述如下:

m, 仃?=(1一a)仃三1+a(‘一p,)7’(‘一以)


22曼吨璺托二,

(3.3) 、~7

其中: 口是学习率。a取值较小时,虽然需要较长时间才能将场景的变化学习到背景中, 但是a取值较大时,则可能无法检测出缓慢运动的前景目标。选择时需要权衡稳定性和 更新速率,可以根据经验选择某个固定值,也可以利用在线估计的方法(Expectation

Ma)(im魄ionAlgorithm),根据公式(3.4)计算出来。
a=卸(‘,“-l-q—1) 其中: k为[O,1】之间的常数; (3.4)

叩(t,以.Lq一.)是高斯分布的概率密度函数,即高斯分布Ⅳ(“小仃三。)采样值为‘的概
率。 上面采用的是一种强制更新策略,缓慢运动的目标会造成严重的“拖尾”。针对这 一问题,有学者建议采用选择性更新的方式,按公式(3.5)对背景模型进行更新: “=M“一l+(1一M)((1一a)“一l+口‘) (3.5)

其中,M是时域差分法检测出来的变化区域或者本算法减除出来的前景图像,即只 用静止像素更新背景图像或者只用背景像素更新背景图像,但是该方法的问题是无法处 理背景构成发生变化的情况,例如前景目标长时间停止而成为背景的一部分。 3.2.4单高斯背景模型小结

总的来说,该算法的优点在与运算量小,但是正如第2.1.3节所介绍的那样,单高 斯背景模型只能用于简单的静态背景应用场合。如果场景中存在动态的背景元素,不同 的物体可能出现在图像中相同的位置,由于不是永久变化,而且变化速度超过模型更新 速率,一种典型的情况,户外被树枝遮挡住的墙壁,同样位置(毛y)处的像素可能来源 于树叶、树枝和墙壁本身。这种情况,上述算法就无能为力了,需要多模态统计模型才 能描述背景。

3.3混合高斯背景模型

stau鼢等口5】提出的自适应混合高斯模型有效地描述了多模态的场景背景。算法用
K个高斯分布组成的混合模型对每个像素点进行建模,则f时刻观测到五的概率是:

东南大学硕士学位论文

尸(墨)=∑q,,7(五,“'f,∑,A其中∑q,,=1
,=O f薯0

(3.6)

其中: 77(Z,“,,∑J’r)和qJ分别是第f个高斯分布在t时刻的概率密度函数和权重。 每个高斯分布分别描述该位置处观测到得一种背景或前景物体。实际应用中,K的 取值一般为3~5。 为了简化计算,还可以假定各颜色通道相互独立,并且具有相同的方差,则协方差 矩阵可以简化为公式(3.7):

∑口=吒,
算复杂度,提高了算法的实时性。 3.3.1背景模型初始化

(3.7)

虽然该假设与实际情况有一定的偏差,会造成检测精度的些许下降,但是降低了计

利用输入的第一帧图像建立混合高斯模型的第一个高斯分布,其均值就等于该位置 像素当前的颜色值,并赋予其较高的方差和较小的权重。然后用第3.3.3节的模型更新 方法处理后续输入图像,一段时间后(一般为100-200帧)就可以得到比较稳定的背景模 型参数了。 3.3.2运动目标检测

混合高斯模型中,并不是所有的分布都是描述背景对象的。混合模型中属于背景的 高斯分布应该具有以下特点:该高斯分布具有较高的权值,此外它的方差应该比较小。 同时考虑这两方面因素,可以用权重q与标准差叮,的比值q/q计算分布的优先级,作 为背景分布的选择依据。 求取背景分布的算法步骤如下:

1)计算每个高斯分布的优先级肛=哆/q,然后对其进行归一化肛=n/∑n;
2)按照优先级n的大小将所有高斯分布按照从高到低的次序进行排序; 3)从K个高斯分布中选出前B个高斯分布作为背景,B满足公式(3.8): 上

B=龇苫111in6(∑肛>丁)
j=l

(3.8)

其中,丁是根据实际情况选择的阈值,通过设定合理的阈值r可以选出描述背景的 最佳分布。 按照优先级从大到小的顺序,将置与前B个高斯分布按公式(3.9)逐一进行匹配, 如果没有找到匹配的背景分布,则判定该点为前景点,否则为背景点。
24

第三章改进的W4运动目标检测算法

陪儿I{:凄臻戮恭高
其中: A是根据经验选择的常量,根据作者建议,通常选择2.5。 3.3.3背景模型参数更新

@9,

为了适应场景随时间的变化,需要对模型参数进行更新。由于混合高斯模型由多个 分布组成,因此它的更新方法与单高斯模型略有不同,其参数更新步骤如下: 1)将当前图像置与混合高斯模型中的每个分布进行匹配,匹配方法如公式(3.9)所 示; 2)根据匹配与否分别采用不同的参数更新方法。 如果置与第i个高斯分布匹配,则需要更新该高斯分布的权值q.f,以及高斯分布

的参数以。和盯己,更新方法如公式(3.10)所示:
哆.f=(1一a)哆.,_l+口 “J=(1一p)“'f一1+p置
(3.10)

仃弓=(1一JD)仃0一l+p(五一“J—1)r(置一雎,一1)
其中: a(O≤a≤1)是权值更新率,a通常取一个较小的值; p是参数更新率,按照公式(3.11)计算得到。 JD=a77(置,“川,q川)


(3.11)

当Z与某个高斯分布不匹配时,则认为当前的像素颜色值对该分布没有任何贡献, 故不需要改变该分布的参数,只需要修改分布的权值,更新方法如公式(3.12)所示: qJ=(1一a)哆,卜l
(3.12)

如果背景模型中没有任何分布与Z匹配,则建立一个新的高斯分布,其均值就等 于当前的颜色值置,并赋予较高的方差和较小的权重,然后将它加到背景模型中(如果 背景模型中高斯分布的数目已经有K个,则用它替换权值最小的分布)。 3.3.4混合高斯模型小结

混合高斯模型利用多个高斯分布分别模拟位置(x,y)处可能出现的多个物体,还可 以自适应获得模型的初始参数,无需缓存大量的图像,降低了对内存的需求。通过自适 应修改高斯分布的参数和权值,背景模型可以适应环境的缓慢变化。对于前景和背景相 互转化的情形,它通过引入新的高斯分布来反映场景构成的变化。当前景物体由于长时

东南大学硕士学位论文

间静止而成为背景的一部分时,模型更新不会破坏已有的高斯分布,原来背景分布的信 息仍然保存在混合模型中,直至它因为优先级降到最低而被新的分布取代。因此,如果 一个目标静止了一段时间后又重新开始运动,描述先前背景的高斯分布保持其原有参数 (均值和方差)不变,只是其权值被降低了,所以仍然可以检测该位置处的前景目标,这 也是混合高斯模型一个重要的特点。另外,由于只会修改匹配的高斯分布的参数,所以 运动物体对背景分布的干扰也不是那么严重。 混合高斯模型在背景建模与运动目标检测中有诸多优点,可以得到较好的检测效 果,因此得到了广泛的应用。它是目前检测效果最好的背景减除算法之一。 从它提出至今,又有许多学者对其进行了研究,重点研究了更新速率选择问题,以 达到更新速率与抗干扰性能的最佳权衡,并有合适的阴影检测算法消除投射阴影对前景 目标分割的影响。 关于混合高斯模型的研究论文不胜枚举,已经没有进一步研究的必要。此外,本文 希望得到是可以实时处理视频数据的算法。从后面的性能测试实验可以看出,对于实时 视频处理应用来说该算法计算量还是有点偏大。 根据应用场合的实际情况,系统处理的是灰度图像,权衡算法的检测精度和算法实

时性,选择基于时域中值滤波的妒运动目标检测算法作为我们的研究对象。
3.4

Vv4运动目标检测算法
W4运动目标检测算法(简称w4算法)是Haritaoglu等人【51【6】【71在它们设计的实时行人

检测与跟踪系统中提出来的,它是一种基于时域中值滤波的统计背景建模方法。它用三 个值来描述背景模型中每个像素:最小灰度值肌0)、最大灰度值,z(x)和相邻两帧之间 灰度差分的最大值d(x)。该算法的主要特点如下:

(1)矿算法是一种适用于户外场景的运动目标检测算法,在这种情况下颜色信息往
往无法获得,它利用物体表面信息和运动信息检测场景中的运动目标,即它是一种用于 单通道灰度或红外图像的运动目标检测算法。 (2)W4算法可以在场景中存在前景目标的情况下建立背景模型,时域中值不像时域 均值那样会受到前景点的影响,即中值背景图像优于均值背景图像。 (3)模型参数简单,它是高斯模型的一种推广,用灰度最大值和最小值描述其分布, 可以在一定程度上处理动态背景的干扰。利用相邻两帧之间灰度差分计算分割阈值,不 需要人工选择固定阈值。 (4)周期性更新背景模型,两种更新方式分别处理环境的缓慢变化和背景构成的变 化。 (5)前景目标检测仅仅涉及简单的减法和比较操作,运算量较小,算法实时性好。 在静止摄像机实时监控固定区域的场合,W4算法是一种既可以取得较好的检测效

果,又兼具实时性的运动目标检测算法。但是原始的妒算法存在一些不足,除了在设
计细节上存在的一些问题之外,比如需要缓存图像以及更新方式判决准则不合理,原始
26

第三章改进的W4运动目标检测算法

算法也没有介绍合适的阴影去除方法。

本章对原始的妒算法做了改进,改进后的算法,在模型初始化完成后,不需要再
缓存图像,可以自适应计算新的模型参数。针对算法中计算量较大的那些步骤,设计了 一些快速算法,进一步提高了实时性。利用归一化相关系数去除前景检测结果中的阴影, 后处理过程中利用形态学滤波的方法优化检测结果,最后利用连通域标记的方法提取场 景中的运动目标。整个运动目标检测系统的流程框图如图3.1所示: N帧图 像序列 背景 模型

选择训练 所需的数据

训练 背景模型

蔷会赣刊…测H…除H…操作H瓣篙
图3.1运动目标检测系统的流程框图

前景 目标

下面的我们详细介绍改进的妒运动目标检测算法。
3.4.1背景模型初始化 在算法开始前需要提供一段合乎要求的视频序列,供其学习初始的背景模型。所谓 合乎要求,就是要求视频序列包含足够有效信息,一般时间越长越好,根据作者的建议,

一般取20.30秒。因为妒利用时域中值构成背景图像,并在模型训练时用中值过滤前
景像素,所以要求任一点的观测序列属于背景像素的比例不得低于50%。一般取100.200 帧图像即可,如果视频采集速度很快,可以通过抽样的方式从一段时间内选取合理数目 的图像训练背景,这并不会显著降低检测效果。用时域中值生成背景图像,比用时域均 值生成背景图像效果更好(单高斯模型中使用的就是时域均值),因为简单的求取时域均 值,得到的背景灰度值会受到前景像素的污染而偏离真值。

妒算法的背景模型初始化过程包含两个步骤:首先,对输入的视频序列进行处理,
利用时域中值滤波将属于运动目标的像素和属于静止背景的像素区分开来;然后,用那 些属于静止背景的像素建立初始背景模型。具体计算步骤描述如下: 用y表示包含N帧相邻的图像的序列,矿‘(x)表示y中第f帧图像位置x处像素的 灰度值。 1)计算图像序列矿中位置x处的所有像素灰度值的标准差仃(x)和中值允(x)。然后 根据公式(3.13),判断序列中每个像素是运动物体像素还是静止背景像素。

矿,o)』属于静止背景,矿(x)一A(x)I<2木仃(x)
一I属于运动物体,
else


(3.13)
、 。

2)利用属于静止背景的像素计算初始背景模型的参数,即寻找所有属于静止背景 的像素的灰度值的最小值聊(x),最大值疗@)和相邻图像差分的最大值d(x)。
27

东南大学硕士学位论文

上面两步合起来可以公式(3.14)表示:

畔)] I聆(x)l=

而n:{y2(x))
ma)【:{y7(x))

L-d(x)J ,nax:{I矿7(x)一y卜1(x)I)

,其中Iy2(x)一A(x)I<2幸仃(x)

(3.14)

其实矿2(x)就是采样序列中属于背景的像素的集合。 如果训练所用的视频帧数较少或者场景中的运动目标一直比较多,在实际编程设计 时,可以为计算出来的标准差设置一个合理的上下限,防止由于采样信息不足造成对噪 声扰动估计不足或者由于前景像素比例太高(接近50%)使得方差太大对滤波结果的不利 影响,可以增加算法的鲁棒性。 此外,由于后续的阴影检测需要背景参考图像,所以用中值生成背景图像 B(x)={卢(x)),并在模型更新时维护背景图像。 3.4.2运动目标检测 获得背景模型之后,就可以它来检测后续输入图像中的运动目标了。具体的检测方 法描述如下: 1)计算背景模型中的所有像素的最大相邻图像差分d(x)的中值,记为d— d。=medi锄(d(z)) (3.15)

2)利用d。对待检测图像,’进行阈值分割。如果待检测图像,7位置x处的像素灰度 值』’(x)满足(所(工)一七母d(x))<,7(x)<(,z(x)+尼木d(x)),则将其归为背景点,置O;否则, 归为前景点,置1。分割得到的二值图像B(x)为:

B(x):{2,(聊(x)一后宰d(x)’{,‘(工)<(刀(x)+后木d(x)) 【l,
else

(3.16)

公式(3.16)中七决定了分割阈值,后取值对分割结果的影响可以参见图3.2。 相关的实验表明,后取得太小,对于亮度变化显著的图像(受到噪声污染或者背景存 在扰动),会产生大量误检(将属于背景的区域判断为前景)。后取得太大,又会造成漏检(将 属于前景的区域判断为背景)。应该权衡误检和漏检的基础上选择合适的七。虽然原算法 作者建议,选择后=2,但是我们根据实际实验结果发现七=3效果更好。关于阈值选取 的进一步讨论,读者可以参见文献【301。



i蔓:



’’

耄箩

“J:.+.


一■.一



:I

、[
一爷、_J.

■-。;

撅繁、一

k=1

.毫,博0一

.豁冀绺跪

一麓莉*,。.戆渗黪


k=2



k=3

量曩一蔓A一
k=4

;A
k=S



、墓

轰南霸曩愚


;叠I囊

i写豇霭苍

篮—l三一:I_订

情况可能会发生变化(云遮住了太阳或者随着时间推移光照强度的变化),因为W4算法 采用的是基于亮度的背景模型,所以光照情况的变化可能会造成误检,即将原本属于背 景像素划分为前景。此外,场景构成也可能发生变化,长时间停留在场景中的前景对象 也应该及时将其更新到背景模型中。例如,汽车停泊在停车位上,不及时更新背景的话, 将无法检测出从汽车里走出来的乘客,造成漏检。

妒算法采用一种周期更新的方式,以适应场景的变化。针对上述两种情况,分别
采用两种不同的背景更新方式。 (1)基于像素的更新:适应环境的缓慢变化,例如光照随时间的缓慢变化; (2)基于目标的更新:适应背景构成的变化。将长时间未发生变化的前景对象加入 到背景中去或者在原来静止的物体离开初始位置之后将显露出来的背景重新更新到背 景模型中。 但是应该如何选择更新策略呢?为了判断背景的构成是否已经发生变化,W4算法将 在运行过程中,维护如下一些数据结构,用来记录更新周期内场景的变化信息。在进行 模型更新时,根据这些信息选择合适的更新策略。
1)Detection Support Map(gS):记录了最近N帧图像中,位置x处的像素被归为背

景点的次数。

刚,-{畿:=:;+1:嚣季薯黧霎
2)Motion
Support

@忉

Map(mS):记录了最近N帧图像中,位置x处像素的运动情况,

记录了该点的运动情况。利用连续三帧图像的差分来判定该点是否发生了运动。

脚'f)=舻‘圳√‘彬“’I三≯列-1H∽帜
c(蹦):{,卜1)“,Z黧2:、 一7 I M(x,f)=O
O,

(3.18)
、 ’

l开心(x,,一1)+1,

M(x,r)=o
el∞

+聊s(x,f)={朋s(x,f一1)一c(x,f), M(x,f)=1&所s(x,r一1)>c(x,f)

【o,
其中:

肘(x,,)是运动分布图像,l代表该位置的像素发生了运动;丁是分割阈值,可 以根据标准差来选取,此处可以适当取大一点的阈值,例如丁=3仃; C(x,f)记录了该位置的像素连续发生运动的次数; 聊S(x,f)记录最近一段时间内的运动情况,用C(x,f)作为自适应运动惩罚值。

原始咿算法计算朋S的方法则比较简单,由公式(3.19)表示:

嘶’,)=船鬟≯嬲蠹
、7 7

lms(x,f—1),

M(x,f)=0

(3.19)
、 7

第三章改进的W4运动目标检测算法

公式(3.19)记录了更新周期内,该点被判定为运动点的次数,但是却没有包含关于运 动发生时间的信息。简单的举个例子,假设更新周期为100帧,一种情况是最初的10 帧运动,后面90帧静止;另一种情况是最初的90帧静止,后面lO帧运动。这两种情 况公式(3.19)计算出来的结果都是lO。显然后一种情况不应该进行基于目标的更新,原 算法却可能会犯错误。公式(3.18)却可以区分两种情况,它惩罚了最新发生的运动以及 连续运动的情况。两种情况计算结果分别为90和45,既可以记录该点发生运动的情况, 又包含了运动发生的时间信息。如果在更新周期内该像素一直保持静止,则两种计算方 式得到的结果是等价的。 原始算法还有Change Hist0巧MapmS):记录了位置】f处的像素距离上一次被归为前 景点已经过去了多长时间。但是作者在模型更新时并没有使用该参数,本文的更新方法 也不需要使用,所以此处不再列出。 运动目标检测过程中,分别用被判定为背景的所有像素和被判定为前景的所有像素

训练背景模型,其中背景像素集合计算得到模型参数为[∥@),矿O),矿O)】,前景像素
集合计算得到的模型参数为[所,(x),刀,(x),d,(x)】,用【朋。(x),矿O),d。(x)】表示当前正在使 用的模型参数。

设更新周期为此如果M帧图像中位置x处出现的大部分是背景点,则用背景像
素集合得到的模型参数更新该点背景模型;如果M帧图像中位置x处出现的大部分是前 景点,而且已经有较长一段时间没有发生运动,则用前景像素集合得到的参数更新背景

模型。否则,保持模型参数不变。即根据筘选择基于像素更新的区域,根据筘和册S
选择基于目标的更新区域。 具体的更新方法可以用公式(3.20)描述:

J【肌6(x),刀6(x),d6(x)】,gs(x)>忌木』M

I聊(x),胛(x),d(x)I={【朋7(x),刀7(x),d7(x)】’茚(x)<(1一后)宰M&n心(x)>,.枣M(3.20)
I【疗,(x),玎。(x),d‘(x)】,
其中: 参数七和,.的取值分别选择0.8和O.8。
else

模型更新完之后,将嬲和砖复位,即清零。
更新周期的选择取决于用户希望前景目标在场景中停留多长时间再将其更新到背 景中,可以选择与训练序列的时长相同。 如果也用训练初始模型时采取的基于时域中值滤波的方法计算[∥(x),矿O),扩0)】 和咖7(x),,z7(x),d/。(x)】,虽然效果不错,但是这种方法需要缓存M帧图像,而且计算量 会累积在背景更新的时刻,不可避免的会造成处理延时。其实,由于我们已经初步将数 据分成背景点和前景点集合,所以用时域均值滤波和用时域中值滤波效果相差不大,因 此可以用时域均值代替时域中值对数据进行滤波。此外,为了不缓存数据,自适应计算 新的模型参数,还可以将整个更新周期分成两部分,利用前M/2帧的数据计算均值和 方差,然后用计算得到的均值和方法对后M/2帧的数据进行滤波,寻找滤波后数据的
31

查塑奎堂堡主堂垡鲨奎
最小灰度值、最大灰度值、相邻图像灰度差分的最大值和平均值(平均值用于更新背景 图像,代替模型初始化时的中值)。结合第3.6.1节介绍的方法,此算法可以自适应的计 算[垅6(x),矿(x),d6(x)】和沏,(x),”厂(x),d,(x)】,不需要缓存图像,也不会存在计算量累积 造成处理延时的问题,背景模型初始化之后可以实时的检测场景中的运动目标。
3.4.4

W4背景模型小结 利用时域中值滤波初始化背景模型,虽然需要额外的一些内存在算法开始时缓存图

像,而不像前面的方法可以利用滑动平均的思想自适应的初始化模型参数,但是中值滤 波可以得到更准确的背景像素值,此外在存储技术高度发达的今天,存储容量已经不在

是系统设计的瓶颈。所以改进的妒算法在系统开始工作前,占用一定的存储空间也是
可行的,毕竟开始检测后,不在需要缓存图像,前面占用的存储空间便可以释放出来供 后续处理过程使用。

妒算法在检测效果上也存在一定的局限性,它在环境发生剧烈变化(例如太阳被云
遮挡住了或摄像机发生了抖动,此时图像的全部或绝大部分将发生显著变化)或背景变 化较频繁(例如刮风的天气条件下,树枝不停的大幅度的摇晃,此时背景将受到频繁的 扰动)的情况下,检测效果不佳。 前一种情况是基于颜色的单像素背景建模方法的通病,一般都是通过提高学习率以 缓解该问题或者结合空间信息进行背景建模而不是单独利用像素的灰度或颜色信息进 行建模。后一种情况,需要利用多模态背景模型才能解决。由于W4算法是周期更新, 而是本质上属于单模态背景模型,所以遇到这些情况检测效果会变得很差。正如原始算 法的作者所提及的那样,W4算法主要优点在于实时性。如果上述情况是常态,则应该 选用前面提到的混合高斯背景模型【251、非参数背景模型【281以及码本背景模型【271。 但是可以用一些其他方法稍微弥补该不足,例如:在光照突变或摄像机发生抖动时, 可以用三帧差分临时代替背景减除检测场景中的运动目标。如果原来的模型连续失效一 段时间,则重新学习背景模型。 如果背景减除法得到的前景区域超过整幅图像尺寸的80%,则认为发成了光照突 变,此时利用三帧差分的结果作为前景图像输出,使得系统可以连续运行。如果一段时

间后,妒算法仍能未能正常工作,则系统停止检测,W4算法重新初始化背景参数。
3.5阴影检测

3.5.1阴影的分类与常用的阴影检测算法 当物体将场景中光源的直射光线部分或者全部遮挡的时候,阴影就形成了。如图3.3 所示,阴影可以划分为两类f3l】:自身阴影(self二shadow)和投射阴影(caSt.shadow)。自身阴 影是在物体自已身上产生的阴影区域,投射阴影则是沿光照的方向投影在其他物体或地
32

第三章改进的、Ⅳ噜运动目标检测算法

面上的阴影区域。投射阴影可以进一步分为本影(啪b啪和半影(pen啪bra),本影是光线
被完全遮挡形成的阴影区域,而半影则是光线被部分遮挡形成的阴影区域。对于投射阴 影,如果物体为运动的,则可以称之为运动投射阴影(moving 态阴影(stin shadow)。
caSt

Shadow),否则称为静

~一





一◇、、

、o、、、


巧一,∥∥,俾;}

渺◆

图3.3阴影模型示意图 阴影检测在运动目标的检测与提取中占有一个十分重要的地位,因为在视频图像 中,阴影包含了关于场景中运动物体的形状和相互位置关系的线索,提供了描述场景的 大量重要信息。但同时,阴影的存在使得物体的分割以及物体的形状和颜色都受到了很 大的影响,例如物体的合并和丢失(阴影覆盖相邻的物体),物体分类出错或者不同物体 之间相互融合,以及形状的扭曲,大小、颜色的改变等。 从另一方面讲,阴影检测与去除又是一件十分困难的工作,因为阴影具有两个重要 的视觉特征:一是阴影显著地异于背景而可能被理解为前景;二是阴影与产生阴影的物 体具有相同的运动属性。这些都对阴影的检测与去除带来很大的困难。如果不能够很好 的检测与去除阴影的话,就会对后续的跟踪、识别以及行为理解和描述等造成负面影响, 导致错误率大大上升,使得系统性能下降。 在实际的阴影检测中,一般都不考虑自身阴影,而是集中在本影的识别上,并将半 影认为是本影的特殊情况。对于静止的投影也不做考虑,仅仅考虑运动投影。 阴影有以下的特性【31J: (1)阴影比较暗,但是它所覆盖的背景区域的颜色或纹理不会发生显著的变化。 (2)阴影总是和产生阴影的物体以及物体的行为相关联(例如,如果人张开双臂,则 阴影会反映人的运动和形状)。 (3)阴影的形状是物体的形状在背影上的投影。光源不是点光源时,一般不满足透 视投影关系。 (4)阴影的边界会根据投影表面的几何形状而发生变化。 可以利用阴影的上述性质检测图像中的阴影。已有阴影检测算法主要有两类:基于 模型的方法和不基于模型的方法【311【321【331:基于模型的方法,通过对场景中的目标建立 表达模型来区分阴影和目标,这种方法检测效果最好,但是建立准确的模型是非常复杂 和耗时的。无模型的方法,通常是利用目标或阴影的空域、时域以及光谱特征,例如目
33

东南大学硕士学位论文

标的亮度特性、颜色特性以及几何位置等对目标和阴影进行区分。它又分为两种,基于 确定性参数的方法和基于统计特性的方法,前者快速、简单,后者需要依据多帧图像在 时间、空间上的统计特性,划分当前象素的类别,实现起来比较复杂。 目前背景减除算法中使用的大多是无模型的方法,且大多是利用彩色特性【25】【2踟。

妒算法处理的是灰度图像,下面介绍一种基于归一化互相关函数的灰度图像阴影检测
算法【34】【35】。 3.5.2利用归一化互相关系数去除阴影

户外场景,太阳为主要光源, 一般情况下,图像中坐标(x,y)处的像素点的亮度可 以用下面的光照模型来表示【32】: %(x,y)=乓(x,y)成(x,力 其中: &(x,y)为(x,y)处的像素点的亮度; 成(x,y)为物体表面的反射系数; 巨(x,y)为光源的辐射强度,即物体表面单位面积接受到得光照强度,该值可以通过 冯氏模型(Phong model)推导出来,推导时假设光源远离物体,光源和物体表面之间的距 离为常量,光源发出的为平行光且观察点固定。该要求在户外自然光环境下自然满足, 此时光强乓(x,y)可以用公式(3.22)近似:


(3.21)

f已+印cos么(ⅣO,y),三), 【乃,
其中: c。和cP分别是背景光线和光源的亮度;

无阴影 (3.22) 本影

乓(x,y)={吒+七(z,y)印cos么(Ⅳ(x,y),三),半影

三是光源的方向,Ⅳ(x,y)是物体表面法线方向,C0s么(Ⅳ(x,y),工)表示Ⅳ(x,y)和三两 者之间夹角的余弦; 七(x,y)是半影相对于无阴影时光能的损失系数,故0≤后(x,少)≤1。本影的光强为常 数,对应于半影光强公式中后(x,y)=0的情况。 忽略半影,只考虑本影,公式(3.22)可简化为公式(3.23)。

乓c五力={乏_勺cos么‘Ⅳo'力,D’雪器耄
l cJ,

伺阴影

c3.23,

一般情况下,可以认为物体表面的反射系数成(x,y)不随时间变化,为一常量 JcI(x,J,)。这样,坐标(x,y)处的像素点在未被阴影覆盖时的亮度和被阴影覆盖时的亮度 的比值为,-(x,y):

,.(训):虹鱼竺掣攀半丝塑:垡型坚燮(3“)
第三章改进的w4运动目标检测算法

乃PLx,yJ



厶、印和cos么(Ⅳ(x,y),三)变化很慢,在一段时间内可以将它们近视为常数,故,.(x,J,) 可以看成一个常量,即坐标(x,y)处的像素点在未被阴影覆盖时的亮度和被阴影覆盖时 的亮度呈线性关系。 由概率论中相关系数的性质可知,若随机变量X和】,呈线性关系,则X和】,的归一 化互相关系数为l。在信号处理中,经常用归一化互相关函数(NCC)衡量两个信号之间 的相似程度。两个信号越相似,两者的NCC值越接近于l。由前面的分析可知,坐标(x,y) 处的像素点在未被阴影覆盖时的亮度和被阴影覆盖时的亮度呈线性关系。因此,NCC 可以用于检测候选阴影像素。 令B(x,y)表示背景建模时得到的参考背景图像,,(x,y)表示当前要处理的图像。对 于每个属于前景的像素点(x,y),取其(2Ⅳ+1)×(2Ⅳ+1)的邻域作为模板 L(m,聆)=J(x+m,y+刀),其中一Ⅳ≤m≤Ⅳ,一Ⅳ≤玎≤Ⅳ。则模板巧和背景图像B在坐 标(x,y)处的归一化互相关系数由公式(3.25)给出【34】:

脚∽加意舞
其中o

@25,

ER(x,),)=∑∑B@+聊,y+玎)巧(m,珂),

厂矿—百———————一 岛(w)=、f∑∑召(H研,y+刀)2
JⅣ
Jv

mt—N n=一N

‰2√互互弓(珊瑚2
岛(x,少)和‰的物理解释分别为背景图像和当前图像在像素点(x,y)处邻域内的能
量。对于处在阴影区域内的像素点(x,y),其邻域瓦的NCC将非常大(接近1),此外,

该区域的能量‰将小于背景图像中对应区域的能量。如果像素点(x,y)满足条件(3.26),
则将其归为背景像素的候选点。

^^[?c(x,y)≥厶雠&E毛,<岛(x,J,)

(3.26)

其中k是一个固定的阈值。和其他阈值选择问题一样,如果厶。比较小,一些属
于运动物体的前景像素也可能被错误地判定为阴影。增大厶。可以减少这种的情况,但 是可能会导致一些属于阴影的像素无法被检测出来。此外,N越大,计算量越大,N太 小,又无法包含足够的信息。二者的选取都需要根据实验结果作折中,根据作者建议【341,

本文选择Ⅳ=4,k=0.95。
上面利用ⅣCC寻找那些邻域中的像素灰度值与参考背景图像中对应位置的像素灰

查堕奎堂堡主堂垡丝茎 度值乘比例关系的那些像素点,得到了候选阴影像素集合。但是,一些属于运动目标的 像素也可能被错误的划归为阴影像素。为了减少这种情况的发生,可以用下面的方法对 上面得到的候选阴影像素点做进一步分析。 反射系数JD(x,y)在小邻域范围内应该近似相同,结合公式(3.24)的分析可知,阴影 区域中,当前图像亮度,(x,y)与背景图像亮度B(x,y)的比值在一定的范围内应该近似为 常量,因此,可以通过计算该邻域内比值的标准差排除那些非阴影的点。具体算法描述
如下:

对于每个满足条件(3.26)的像素点(x,y),考察其周围(2M+1)×(2M+1)的邻域R, 实验中取M=1,如果满足条件(3.27),则将它归为阴影像素【34】:

s编(嬲)<k&k≤(嬲)<1
其中: s耐R(,(f,,)/B(f,.,))是区域R中』(f,歹)/B(f,,)的标准差;

(3.27)

k和k是阈值,k控制邻域R内标准差的最大值,k用于防止将过暗的目标
判断为阴影。因为如果亮度过低或过高,原始图像的信息都会丢失。根据作者建议,实

验中选择k=O.05和k=O.5。
那些同时满足公式(3.26)和公式(3.27)的前景像素点,才是最终被去除的阴影。

3.6图像预处理和前景区域后处理
使用背景减除法检测运动目标,除了上面介绍的背景建模、前景检测、背景模型更 新及阴影去除步骤之外,一般还需要在系统的前端添加图像预处理以及在系统的后端添 加前景区域后处理的环节。 所谓图像预处理,就是对视频图像数据进行简单的空域或时域滤波,以消除摄像机 噪声和雨雪等瞬时环境噪声,或者降低图像尺寸和视频帧速率。预处理的另一个目的是 将数据转换成适合特定背景减除算法处理的格式,例如,现在许多算法都是在HSV颜 色空间处理图像数据,所以需要对常用的RGB图像做相应的转换。实验中,用中值滤 波滤除杂散的噪声点,并将输入图像转换成灰度图像。 由于现实场景可能比较复杂,图像也可能存在噪声,前景检测及阴影去除后得到二 值图像,除了会包含一些无意义的区域(包括图像噪声造成的孤立的点以及背景扰动造 成的孤立的小区域)外,也无法得到完整的目标区域(由于目标某一部分与背景的对应区 域相似,一个目标可能会发生断裂而被分割成多个小块,目标内部也可能会出现孔洞)。 为了能够提取出前景目标,需要对前面得到的结果进行后处理:一方面需要去除那 些孤立的、无意义的噪声点或小区域;另一方面还将属于同一个运动目标的各个团块之 间的缝隙连接起来。可以通过形态学滤波的方法修正这些问题【361。先腐蚀后膨胀的过程 称为开运算(Opelling),一般使对象的轮廓变得光滑,在纤细线段处分离目标,并能够消

第三章改进的、矿运动目标检测算法

除细小目标。先膨胀后腐蚀的过程称为闭运算(Closm曲,同样能使轮廓线更光滑,可以 消除小的孔洞,并连接邻近目标。它们都可以在不明显改变面积的情况下平滑对象的边 界。本文选择开/闭运算组合,对阴影去除后得到的前景图像用3×3的结构元素先做一次 开运算,然后再做一次闭运算。 然后对形态学处理后的图像分析前景像素的连通性,用连通域标记或者轮廓提取的 方法将属于不同目标的前景像素分割开来,并去除掉连通区域面积小于预定阈值的前景 区域,最后留下来的前景区域就是我们要提取的运动对象。使用连通域标记的方法可以 获得关于目标大小,质心位置的信息。使用轮廓提取的方法还可以获得目标形状的信息。 一般,检测到的运动目标可以用它的外接矩形或椭圆表示。 本节涉及的方法都是基本的图像处理方法,可以参见文献【36】的相关内容,此处不作 详细展开。

3.7提高算法实时性的编程方法
如今,视频分析应用系统对实时性的要求越来越高,此外,由于嵌入式应用的普及, 芯片的处理速度往往是有限的,为了提高系统的实时性,需要充分挖掘芯片的处理性能。 在内存价格越来越低,容量越来越大的今天,可以牺牲一点额外的内存,利用“空间换 取时间"的方法提高算法的实时性。

下面介绍一些妒算法实现时,使用的一些快速算法,用它们代替传统的实现方法,
可以显著降低计算量,提高算法的实时性。 3.7.1计算序列的标准差

长度为N的序列为而,而,...,毛的标准差定义为:

^—百———一

1Ⅳ

仃2√专善(薯一一)2,其中i 2专善t为序列的平均值

(3.28)

如果标准定义公式计算标准差,则需要两次循环遍历才能得到结果,即先计算平均 值,然后按照公式(3.28)计算标准差。此外,由于需要在得到了所有采样点之后,才能

开始计算,造成所有的计算都需要在得到最后一个采样点之后才能进行。由于妒算法
在背景模型初始化和背景模型更新都需要计算标准差,如果直接使用公式(3.28)的计算 方法,W4算法会在背景更新时实时性会变得很差。 其实,公式(3.28)还可以变换成另外一个较为简单的形式:

仃2√专善#一畴善薯)2
公式(3.29)的推导过程如下所示:

——万—————万一

(3.29)

37

东南大学硕士学位论文

仃=污喜c私卜污和也吼确 =√专喜葺2—2i幸专喜墨+专善孑2 =√专善#一2i枣i+专幸Ⅳ?i2

=踺西
=污善#一砖和
根据公式(3.29)计算标准差,只需要一次循环遍历便可以得到结果。这样就可以将 计筲暑锌斯到每一蝻的府卜砸讨程由.衄漳计笛:暑量翱诰甫W4笛沸立时性弯善的问颢. 3.7.2寻找序列的中值

常规的基于排序的计算序列中值的方法,执行开销非常大。虽然可以使用快速排序

算法,但是即便采用这种方式,时间复杂度也为D仰log珂)。妒算法经常需要寻找序列
中值,如果可以找到一个线性开销的中值算法将极大的降低算法的执行开销。为了提高 处理速度,有些学者提出了“伪中值滤波”算法,仅仅抽取序列中的一些元素进行排序, 通过减少排序元素的数目的方法提高运算速度,但得到的结果并不一定是序列的中值, 可能会引入误差。 其实只要能快速找到序列元素的中间值即可,并不要求对所有元素进行排序。有学 者突破对所有元素进行快速排序的限制,结合分治的思想,提出了均值加速的快速中值 滤波算法MFM(meaIl-baLsed f弧t mediall filter)‘37J,算法开销为基于快速排序中值算法的一 半,其基本原理是:首先计算该序列中所有元素值的平均值,以该均值为界将序列元素 分成元素值大于或等于均值的元素集合以及小于均值的元素集合,并计算两个集合中的 元素个数,舍弃元素个数少的集合,而只对元素个数大于总元素个数一半的集合重复上 述过程,直到分解的两个集合的元素个数都小于总元素个数的一半。最后对所得到的两 个子集合之一进行快速排序,找出整个序列的中间值。 如果序列元素比较多,而且元素只能取有限种值的话,设为Ⅳ(例如灰度图像中像素

的取值只能O,1….,255这256个值)。对于这种的特殊的序列,可以用下面方法快速的
寻找序列的中值。 首先,统计序列中所有元素取值的直方图; 然后从小到大累加各个取值的元素数目,直到小于等于某值的元素总数大于等于序 列中元素总数的一半,则序列的中值就是这个值。 该算法的时间开销为:刀+Ⅳ,空间开销为N。

显然,如果刀较小而Ⅳ比较大,采用该方法反而会降低效率。但是本文介绍的妒
38

第三章改进的w4运动目标检测算法

算法,一般会涉及上百帧图像序列的统计处理,计算最大帧间差分的中值更是涉及上万 个像素点,即n比较大,而且处理的是灰度图像,像素取值只有256种可能。此外,由 于中值不会偏离均值太远(前面计算标准差得到的副产品便包括均值,无须额外的计算), 还可以用下面的方式进一步减少直方图的维数,本文采用的维数为l+20+1+20+1=43, 将比均值小20以上灰度值的统计在一起,将比均值大20以上的灰度值也统计在一起, 均值附近前后20个灰度值分别统计。实践证明,这样可以满足本文的需求,中值算法 开销变为:刀+43,近似为线性开销,极大了提高了算法的实时性。 3.7.3利用积分图像加速阴影检测过程 阴影检测需要多次执行公式(3.25),因此存在大量的图像矩形区域求和操作。遇到

这种情况,可以使用积分图像(inte{≯al硫age)加速计算【38】。
设口(x,y)为原始图像,(曩y)对应的积分图像,口(x,y)的计算方法可以用公式(3.30) 表示。

口(x,y)=∑∑m,y)
f皇0

(3.30)

J=0

如图3.4(a)所示,积分图像中任意一点的值存储的是原始图像阴影部分的所有像素 灰度值的和。 利用积分图像可以计算图像中任意位置、任意大小的矩形区域,只需要4个点进行 三次加法运算就可以计算出该区域内所有像素灰度值的和。如图3.4(b)所示,阴影区域 内所有像素灰度的和S可以用公式(3.31)计算出来。 S=口(恐,奶)一口(蕾一1,此)一口(而,咒一1)+刀(五,M) (3.31)

(a)


(b)

图3-4积分图像:(a)积分图像示意图;(b)使用积分图像进行计算。

当需要频繁计算矩形区域内的和值时,更能体现出积分图像的优越性,而代价只是 事先对图像进行一次遍历,还有需要额外占用一副32位整型图像的存储空间。

3.8实验结果
通过一系列有针对性的实验,全方位展示了改进的W4运动目标检测算法的检测性
39

銮堕奎堂堡主堂垡丝茎
能。基于Visual C++6.0和OpenCV编写所有代码,有关OpeCV的介绍及使用方法,可

以参考文献【39】【40】【4l】。计算机型号为DELL OPTIPLEX 330,机器硬件配置为:111tel
CPU E2160 1.80GHz,2G DDI也667MHz MemoDr。

Dual

3.8.1实时性与检测效果比较

比较了滑动平均高斯背景模型、混合高斯背景模型和改进的旷运动目标检测算法,
包括实时性、检测效果和生成的背景图像。 背景模型的参数选择如下: 滑动平均高斯模型:学习率设为固定值口=O.05;为了能够处理背景构成的变化, 采用公式(3.3)所描述的强制更新方式;公式(3.2)的分割阈值七=3;用该点的灰度平均值 生成背景图像。 混合高斯模型:高斯分布的数目K=3;高斯分布的初始权重∞=O.05,初始方差 仃2=30×30;权值更新率a=0.05;公式(3.8)中的背景分布阈值丁=0.7;用该点背景模 型中优先级最高的高斯分布的均值生成背景图像。 W4算法:训练帧数和更新周期都设为200帧图像,其余参数按照文中推荐设置选择, 用该点初始模型的中值或者更新模型的平均值生成背景图像。 此外,为了在相同的条件下比较三种算法的实时性,三种算法处理的都是单通道灰 度图像,检测结果为前景检测步骤的输出,未经过阴影检测和形态学后处理操作。 测试视频是使用实验室安装在室外的监控球机采集的视频,观测场景为某实验楼前 的小广场。利用输入图像序列的前200帧图像训练背景模型,然后统计后续200帧图像 处理所消耗的时间,包括前景检测与模型更新所花的时间。表3.1给出了三种算法的执 行时间。 表3.1算法实时性比较 滑动平均 处理200帧图像所消耗的时间(ms) 平均每帧图像的处理时间(ms)
593.63
2.97

混合高斯
6820.58
34.10

W4
2200.68
11.00

图3.5给出了三种方法生成的背景图像与前景检测结果,背景模型训练完之后每隔 20帧保存一组结果,选择其中的三组说明三种算法的检测效果。其中第l行是输入的原 始灰度图像,第2、3行是滑动平均高斯背景模型获得的背景图像与检测到的前景区域,

第4、5行是混合高斯背景模型获得的背景图像与检测到的前景区域,第6、7行是妒
算法获得的背景图像与检测到的前景区域。第1、2、3列分别对应于视频序列的第200、 700、1560帧。
7。’Jt‘’

通过表3.1所列出的数据及图3.5展示的背景图像与检测结果,可以看出滑动平均 的实时性最好,但是强制更新得到背景图像存在拖影(造成误检,拖影的存在使得背景 图像也无法用于消除阴影),而选择性更新无法处理背景物理构成的变化,所以应用范


第三章改进的"运动目标检测算法

图3?5背景建模得到的背景图像与前景检测结果:第1、2、3列分别为视频序列的第200、700、1560

帧;第l行为输入的灰度图像,第2&3、4&5、6&7行分别为滑动平均算法、混合高斯算法、妒算
法获得的当前时刻的背景图像与当前帧的前景区域。
4l

东南大学硕士学位论文

围有限,只能用于一些简单的场合。第三章介绍的基于区域匹配的多目标跟踪算法需要 优秀的运动目标检测算法的支持,滑动平均背景建模无法满足该跟踪算法对检测质量的 要求。混合高斯背景模型实时性最差,在需要实时处理视频的场合留给后续操作的余地 太小,以标准P:AJL制视频为例,每帧处理时间为50ms,如果采用混合高斯背景模型, 前景检测就占据了大约70%的处理时间,后续的目标分割与目标跟踪操作无法在规定时 间内完成。此外,实验中也发现使用混合高斯模型检测结果严重依赖模型参数的设置, 所以需要根据具体应用情况选择合适的参数才能获得优秀的结果,这要求使用者了解多 个参数的意义与调节方法。本章介绍的W4算法的处理性能与实时性都介于二者之间, 既满足后续跟踪算法对检测性能的要求,也为后续处理(目标分割与目标跟踪)预留的充 足了处理时间。此外,使用也比较简单,只要初始化背景模型时输入合乎条件的视频序 列,即可得到满意的结果。

3.8.2形态学滤波和连通性分析 如图3—6(a)所示,前景检测得到的结果往往含有噪声,前景目标上也可能会存在孔 洞。可以利用形态学操作中互补运算可以处理该问题(膨胀和腐蚀是互补的,开运算和 闭运算也是互补),通过选取合适的互补操作,经过一定次数的运算就可以消除噪声, 填补孔洞。图3.6(b)给出了用3×3的结构元素先对图像做一次开运算,再做一次闭运算 得到的结果。图3.6(c)给出了用3×3的结构元素先对图像做一次闭运算,再做一次开运 算得到的结果。两者都可以有效的去除噪声,平滑轮廓,修补孔洞。它们的区别在于: 先做开运算优先考虑的滤除噪声,而先做闭运算优先考虑的是获得完整的目标区域。也 可以多做几次类似的互补运算,以达到最佳效果。 对形态滤波后得到的前景像素进行连通性分析就可以提取出图像中的运动目标。图 3—6(e)给出了基于连通域标记算法得到的结果,它可以提取出关于目标的位置,尺寸和 质心的信息。图3.6(d)通过轮廓提取,也提取出了图像中的运动目标,除了可以得到关 于目标位置,尺寸的信息,物体的轮廓还给出了目标的形状与形心。已经滤除区域面积 小于一定阈值的团块(要求团块外接矩形的宽度或高度超过10个像素)。

42

第三章改进的妒运动目标检测算法

一◆◆ ◆◆
(a) (c) (d) (e) (f)

图3石后处理结果:(a)前景检测结果;(b)先开运算然后闭运算;(c)先闭运算然后开运算: (d)轮廓提取法分割目标:(e)连通域标记法分割结果;(D用外接矩形在原始图像上标记目标。

3.8.3阴影去除 图3.7给出了阴影检测和去除的示意结果。从上到下分别为视频序列的第980、1520 和2560帧。从左到右分别是原始输入图像、前景检测结果和去除阴影后的结果。 第2560帧,如果直接利用前景检测结果提取运动目标,阴影会将图像下方的两个 行人团块连接起来,阴影去除操作成功的将两人分离开来。这也是阴影去除的主要目的。 此外,阴影的存在也会增大目标的外接矩形的尺寸,影响后续跟踪处理。 但是,目前使用的阴影检测算法也有不足,因为处理的灰度图像。如果纹理不丰富 的话,很容易与背景相似而被判断为阴影。实验中就发现许多情况下,属于目标的区域 也被判断成阴影而被去除掉了。去除第980帧图像中的阴影时,就将右边行人的胸部区 域给错误的去除掉了。更严重的情况,也将物体分割成多个团块。 总的来说,利用本文介绍的方法可以检测到图像中大部分的阴影,但是也存在不少 错误的将前景目标区域判断成阴影的情况,它会严重影响后续分析。效果不太理想可能 是参数没有调节好,也可能是算法固有的缺陷。因为灰度图像所带的信息比较少,纹理 比较少时,容易符合线性相关的性质,后续还需要继续研究灰度图像阴影去除方法。

43

东南大学硕士学位论文

图3.7阴影检测与去除效果:第1、2、3行分别为视频序列的第980、1520和2560 帧;第1列为视频的原始图像;第2列为前景检测结果;第3列为阴影去除后的结果。

◆◆一 ◆◆一 ◆◆一

3.9本章小结
本章首先介绍了两种常用的背景建模方法——滑动平均背景建模和混合高斯背景
模型,包括算法的基本步骤和各自的特点。然后从实时视频处理的需求出发,综合考虑

算法检测性能和实时性,选择妒算法作为系统将要使用的运动目标检测算法。
接着详细讲解了改进W4运动目标检测算法的步骤,包括初始背景模型的训练,前 景区域的检测以及背景模型的更新方法。再不改变背景模型表示方法的前提下,借鉴其 他算法的设计思想,改进原始w4算法的周期更新策略,使得算法可以自适应更新背景, 完成初始背景模型训练后不再需要缓存图像,即可以自适应更新背景。借鉴VSAM系 统的设计方法,利用时域差分法对光照突变不敏感的特点,弥补背景减除法的不足,在 光照突变时代替背景减除法检测场景中的运动目标。原始的w4算法没有阴影去除的步 骤,在介绍了阴影分类与阴影属性的基础上,找到一种适合于灰度图像的阴影检测方法。 利用归一化互相关系数检测前景区域中的阴影,使检测出来的运动目标信息更准确。还

介绍了可以在妒算法中使用的三种快速算法,用于计算序列标准差、寻找序列的中值
和计算归一化相关系数,显著的提高了算法的实时性。 本章的最后比较了滑动平均,混合高斯模型和W4算法的实时性和检测性能,并给

出了本章介绍的改进的咿算法的检测结果。

第四章目标跟踪

第四章目标跟踪
关于目标跟踪的应用主要有两类: (1)摄像头随着运动目标移动,使被跟踪的目标始终处在图像的中央。只能跟踪单 个目标。 (2)摄像头固定,对视场内的运动目标进行跟踪,生成目标在视场中的运动轨迹。 可以跟踪单个目标也可以跟踪多个目标。 本章首先讨论最常用的基于核的目标跟踪算法中的模板匹配算法和meall.s11in算

法,然后介绍了一种用于摄像头固定场景下多目标跟踪的简单方法一基于区域对应的 多目标跟踪算法。
4.1模板匹配跟踪算法
模板匹配是数字图像处理中的重要概念之一。把不同传感器或同一传感器在不同时 间、不同成像条件下对同一景物获取的两幅或多幅图像在空间上对准,或根据已知模式 到另一幅图中寻找相应模式的处理方法就叫做模板匹配。 对于跟踪问题,描述跟踪目标的模板研就是一幅已知的小图像,它是在前一帧的 视频图像的处理过程中定义的,一般是在初始化跟踪目标时获取的目标区域的图像,然 后在跟踪过程中对目标模板进行更新以适应环境和目标状态的变化。模板匹配跟踪就是 在当前视频帧£中搜寻与目标模板最相似的图像区域,得到的区域便是目标在当前图像 中的位置。 模板匹配跟踪算法的主要研究内容有两个:一个是相似性度量准则,即如何评价图 像区域与目标模板的相似程度;另一个是搜索算法,即如何快速寻找最相似的图像区域, 因为理论上寻找全局最优的暴力搜索法执行效率太低。 4.1.1相似度度量准则 要想准确地确定目标在当前图像中的位置,相似度评价准则是关键。 由于图像的像素灰度值包含了图像的所有信息,所以基于图像灰度值的匹配就成为 一种最基本的匹配算法,主要有绝对平衡搜索法ABS(Absolute
BalaIlce

Search),归一化

互相关法NC(No肋alized Co仃elation)【43】m】和利用直方图的匹配算法【42】f451。
1.绝对平衡搜索法ABS 绝对搜索方就是直接利用模板图像和待匹配图像上的候选窗口之间的像素灰度值的

差值计算二者的相似程度。主要有三种评价准则:最小平方误差MSE(Mimm啪Square
E玎.0r),最小绝对差MAD(M试mum
Absolute
45

Deviation)和最大相关距离统计

东南大学硕士学位论文

MCD(Ma)【im啪Con.elation Dis切nce)。
假设目标模板的尺寸为M×Ⅳ,待匹配图像的尺寸为K×三,记模板图像为丁(x,J,), 当前待搜索的图像为,(x,y),(出,砂)指定候选模板的位置,则MSE公式(4.1)、MAD 公式(4.2)和MCD公式可以分别定义如下:



肱范=argmin出,咖∑∑【r(x,y)一,@+出,y+咖)】2

(4.1)

刎D=argIllin出,砂∑∑l丁(x,y)一,(x+出,y+砂)l

(4.2)

MD(毗砂)=argll泓出,砂∑∑Ⅳ∽y)

№∽:黔川叫x誊诽丁
不突出的缺点。但是预设阈值很难选定。

(4.3)

其中,丁是预设阈值,灰度差小于阈值丁的像素被归为匹配像素,否则归为非匹配 像素。MCD距离越大,说明两幅图像越相似。MCD算法思路简单、实现方便,由于舍 弃了与模板图像相差很大的点,因而避免了传统相关匹配算法中因噪声引起的相关曲面

如果待匹配图像相对于模板图像发生全局变化(整体变亮或变暗),上面的公式都会

然后在计算它们的相似程度。以㈣为例,零均值化后记为ZMAD,定义如公式(4.4)
所示,MSE和MCD也可以用相同的方法零均值化。

失效。可以通过零均值化的方法减轻这种影响,即模板和候选模板分别减去它们的均值,

z删D=arg血n出,砂∑∑l(丁(x,y)一于)一(,@+出,y+砂)一7(出,砂))I

于:型

兰兰丁(五y) ∑∑丁(x,y)

兰兰,o+毗y+方) ∑∑,o+出,y+方)

@4) V一’

,7(如砂)=业。L面

其中,于和7(出,方)分别是模板和候选模板的灰度均值。 总的来说,绝对平衡法优点是计算简单,但也有明显的局限性,一旦待匹配图像相 对于模板图像灰度值发生线性变化时,上述算法都会失效。 2.归一化互相关法NC 互相关系数可以检测信号的线性变化,归一化可以处理图像的全局变化,综合二者 的性质,提出归一化互相关模板匹配算法,通过寻找与模板图像归一化相关系数最大的 区域跟踪目标。其性能优于上面的绝对平衡搜索法定义如公式(4.5)所示:

第四章目标跟踪



刎C=argma)【凼,咖

∑∑[丁(x,y)一于][J@+出,y+砂)一7(出,砂)]
j=l y=l

(4.5)

归一化互相关模板匹配算法不受图像整体亮度变化的影响,也不受图像灰度值线性 变换的影响。但是由于图像的自相性,利用互相关系数计算出来的相似性形成以目标实 际位置为中心的平缓峰,往往无法检测到准确的尖峰位置。为了克服这个问题,可以对 待匹配图像和模板作边缘处理,这么做是因为当图像中像素点相关时,两副图像的相关 性实际是集中在它们的边缘信息上的。 总的来说,归一化互相关函数方法具有抑制噪声的能力,在灰度线性变化、旋转或 畸变差异不大的情况下,也能够得到满意的结果。虽然归一化互相关函数作为模板匹配 的相似性度量有很多优点,但其运算量大、全局最优搜索耗时长,无法用于实时目标跟 踪。 3.直方图匹配算法 直方图是一种统计后得到的数据,是某种意义上的概率密度。它反映了图像中像素 灰度值的分布特性,因此能够描述描述出图像的一些统计特征(均值、方差、互相关值 等),利用这些统计特征可以判断两幅图像的相似程度。 利用颜色直方图(可以是彩色图像的亮度.颜色联合直方图,也可以是灰度图像的灰 度直方图)描述目标外表的目标跟踪算法很多,一种简单的方法是利用颜色直方图的投 影图的跟踪目标【421。 所谓投影图可以看成目标模板的颜色直方图在待匹配图像的颜色直方图上的投影, 因此其中隐含了目标在待匹配图像中位置的相关信息。假设直方图的维数为珑,用M(f) 和Ⅳ(f)分别表示目标模板图像和待匹配图像的直方图的第f个颜色出现的概率,按公式 (4.6)定义q。

q={Ⅳ(i)。 【 o,P船

l塑,Ⅳ(瓣o


j=1,...,历

(4.6)


由定义可以看出,珥的大小代表了第f个颜色值在目标模板中的重要程度,因此可 以用它衡量该颜色值属于目标的可能性。计算出儡之后,将待匹配图像中每一个取值为 第i个颜色值的像素用255×珥代替,就得到了待匹配图像的投影图。在投影图中,亮度 比较高的区域就是潜在的目标。可以寻找平均亮度最高的区域作为最终的目标位置。 该方法也可以用于多目标跟踪,假设目标数目为Ⅳ,分别计算每一个目标模板的颜 色直方图,然后计算每个目标模板在待匹配图像上的投影图,得到Ⅳ个投影图,然后分 别对这Ⅳ个投影图进行处理就可以跟踪多个目标。 颜色直方图是一种统计特征,对目标平移、旋转、尺度变化、变形不敏感,利用直
47

奎堕奎堂堕主堂垡笙奎 方图匹配算法可以比较鲁棒的跟踪目标。但是它也存在一些不足: (1)目标较小时由于缺少足够的信息,无法使用空域统计特征,包括直方图。 (2)图像的背景的颜色分布与目标的颜色分布相似时,利用颜色直方图的匹配算法 将失效。 (3)由于颜色直方图丢失了目标表面包含的位置信息,所以在发生目标遮挡或出现 相似物体时,效果会变差。 上面三种方法都是使用图像的颜色作为特征,而颜色容易受到光照变化的影响。也

有学者利用图像的边缘特征进行匹配也很常见,例如:对边缘图像使用HauSdo筒距离
进行匹配算法【46】。 4.1.2加速匹配搜索过程的方法

模板匹配运算量相当大,除了相似度准则的计算复杂度外,更主要原因在相似度计 算次数非常大。利用定义公式中的暴力搜索法,将搜索窗口在待匹配的图像上逐像素滑 动,每滑动一次都需要计算一次相似度。虽然可以通过空间位置接近假设,可以只在前 一帧图像中目标位置周围的一定范围内匹配,缩小需要匹配的范围,但是即便如此,计 算量还是相当惊人的。 实时图像跟踪系统才有应用价值和实际意义,因此需要加速匹配过程。在不损失或 基本不损失匹配精度的基础上,提高匹配的搜索速度。 经常使用的加速匹配过程的方法有序贯相似度检测算法SSDA(Sequential SiIllil撕够

Detection砧gori‰s)和金字塔分层搜索算法【43】m】,此外,还可以用二维对数搜索法,三
步搜索法【47】,但是它们的性能不如前面的两个。本质上这些算法都是通过预测目标可能 在待匹配图像中的大致位置来减小搜索次数,从而降低匹配时间。 1.序贯相似度检测算法 序贯相似度检测算法的思想是在匹配过程中一旦发现当前候选模板所在的参考位 置不是匹配点时,就丢弃它,不再继续完成该候选模板的相似度计算,立即转到下一个 候选位置进行计算,从而大大提高了匹配速度。 第4.1.1节讲到归一化相关系数匹配效果好,但是暴力寻找最优匹配位置,计算量 太大。下面用SSDA算法加速归一化相关匹配过程,具体算法描述如下: 1)根据公式(4.7)定义绝对误差值:

s(出,咖,x,J,)=l(丁(x,y)一丁)一(,O+出,y+砂)一』(出,咖))l
2)取一个固定的阈值瓦;

(4.7)

3)不断从候选模板图像,O+出,y+砂)中随机选取像素点,计算它同模板图像中对 应点的绝对误差值s(出,咖,x,y),然后将它和前几次随机抽样点的误差值累加起来,当 累加误差超过瓦时停止抽样,记下该候选模板的累加次数,.,根据公式(4.8)定义SSDA

第四章目标跟踪

检测曲面S(出,咖):

s(出,砂)={,|mill.9蜊【∑s(出,咖,x,y)≥瓦】>
七=l

(4.8)

4)把S(出,砂)值最大的点(出,咖)作为匹配点,也就是目标在图像中的位置,因为 这一点上需要许多次累加才能使中误差超过阈值。 基本SSDA算法使用固定的阈值,如果使用自适应阈值可以进一步改进SSDA算法 的效率。 2.金字塔分层搜索算法 分层搜索是一种由粗到精的匹配方法,它是一种常用的加速匹配的方法,算法主要 包含两个步骤: 1)生成金字塔图像 利用原始图像的珂×行个像素生成第二级图像的一个像素(最简单的方法是加权平 均,一般取刀=2,然后再对第二级图像进行类似的处理生出第三级图像,以此类推, 可以生成一个图像序列。 分别对模板图像和待匹配图像执行上述操作,得到两个图像序列:

模板图像序列L:(芳×芳)
以 玎 刀 刀

w:1,2,...,K w一工,二,…,』、

待匹配图像翩,:寺×∥堤分层层数
具体分层层数应该根据模板图像和待匹配图像的尺寸选择。将生成的图像序列按顺 序叠放起来很像古埃及的金字塔,因此也称其为金字塔图像。 2)先粗后精的匹配过程 匹配过程从分辨率最低的图像开始,在L中搜索与瓦,匹配的位置,其中w=足,确

定出粗略匹配的大致位置(九,饥)。分辨率低时,图像维数较小,相应搜索过程也比较
快,但也因为分辨率最低,所以可能会出现多个匹配位置。然后,匹配L。.图像,在上 一级图像匹配中得到的一个或若干个粗匹配位置附近搜索当前图像的匹配位置,得到一

个或多个可能性更大的匹配位置(瓯巾方,,)。依次类推下去,直到在原始图像层,找到
相应的匹配位置。 多级图像金字塔匹配具有速度快、可靠性高的特点,利用由粗到精的匹配策略提高 匹配速度。研究表明,不同方法生成的图像金字塔对匹配结果影响不同,基于小波图像 金字塔的匹配成功率最高,其次是加权平均图像金字塔和拉普拉斯图像金字塔。

49

东南大学硕士学位论文

4.1.3模板更新 相似度评价准则影响跟踪算法的准确性,匹配搜索算法则影响跟踪的实时性,但是 它们都是基于模板图像能够准确描述目标当前状态的前提下进行讨论的。 跟踪过程中,目标模板决定了跟踪效果的好坏。由于目标状态不断在变化,可能发 生旋转、变形、遮挡,此外,环境变化,例如光照变化也会影响目标在图像中的外表。 跟踪过程中对模板作合理的更新是稳定跟踪的关键14引。 实践证明,如果简单的用当前图像中最佳匹配位置处的子图像作为下一帧图像匹配 的目标模板,系统很快会跟丢目标。因为某一帧匹配的位置偏差会直接影响后续帧的匹 配,系统不断累积偏差,最终完全丢失目标。因此,考虑依据匹配位置处的相似度,利 用旧模板和当前图像最佳匹配位置处的图像的生成新的模板。 目前使用最多的方法是利用加权滤波刷新模板m】。使用该方法刷新目标模板时,用 于匹配下一帧图像的模板与当前最佳匹配位置处的子图像、当前的模板和过去曾经使用 过的模板之间均有一定的联系。新的模板可以用公式(4.9)表示。

丁=a丁++风丁。+应l丁一1+….+皮。+l丁一肘1,(a+∑屈)=l
f=一月+l

(4.9)

其中,丁为新模板;r为当前最佳匹配位置处的子图像;ro为当前使用的模板, 丁一,...,丁”“为过去使用过的模板;权重系数a,风,...,应州分别代表对应模板对新模板的 贡献,所有权重系数的和等于l。 当玎=l时,公式(4.9)变成公式(4.10)的形式。 丁=a丁++(1一a)丁o(4.10) 此时,新模板仅与当前最佳匹配点处的子图像和当前使用的模板有关。a反映了当 前最佳匹配点处子图像的置信度,可以取当前最佳匹配的归一化相关值。 4.1.4位置预测与遮挡判断 某些特殊的情况下,例如图像发生快速全局运动,外光源闪烁或者云层或其他物体 遮住运动目标时,跟踪可能无法找到目标在图像中的位置。为了保证跟踪的连贯性,可 以采用预测跟踪的方法,当目标被其他物体部分或全部遮挡时,根据目标此前的位置信 息和运动信息,预测目标在下一帧可能出现的位置。当目标再次出现时,使跟踪器仍然 可以继续跟踪目标,而不至于丢失目标。常用的预测跟踪算法有记忆外推预测算法、Ⅳ 点线性逼近预测算法、Ⅳ点平方逼近预测算法、卡尔曼滤波算法及其他各种综合预测算 法。 卡尔曼滤波是一种在时域内采用递归滤波的方法估计系统状态的方法,具有计算量 小,可实时处理的特点,使用最为广泛。卡尔曼滤波器的原理,及其在跟踪中的应用可 以参见文献【49】。使用卡尔曼滤波器预测目标位置需要注意下面的问题。

第四章目标跟踪

虽然经过一段时间的训练之后,卡尔曼滤波器就可以准确预测出目标的真实状态。 但是,如果初始参数设定偏离实际情况,滤波器初始化后的前几次的预测值通常并不可 靠,可能会偏离真值。由于每次预测的时间间隔较小,目标位置改变也较小,可以认为 目标应在上次出现的位置附近的可能性较大。因此,在卡尔曼滤波器的开始工作的最初 几帧,可以对预测位置做以下修正:

曼’(七):曼(后)×鱼+x(后一1)×!坐,七<即
刀 刀

(4.11)

其中:圣(七)为卡尔曼滤波器预测x方向上的目标位置;x(后)为模板匹配得到的目标位置; 量’(尼)为修正之后的x方向上的预测位置;七为滤波次数,刀可以取5。 对y方向的坐标也采用类似的处理。 此外,当目标被遮挡时,此时匹配到的目标位置将偏离目标的真实位置,此时应该 停止更新卡尔曼滤波器1501。为了检测发生严重遮挡的情况,定义滤波残差厂(七):

,.(七)=√(x(后)一圣(七))2+(y(七)一夕(七))2

(4.1 2)

经过一些帧后,卡尔曼滤波器应该就可以比较准确的估计出当前帧目标该出现的位 置,即,(七)应该较小。即使出现一定比例的边缘遮挡,基于颜色的跟踪算法也能准确的 搜索到目标。当滤波残差远大于正常的r(七)值时,目标可能遇到了严重的遮挡,这时利 用卡尔曼滤波器预测初始搜索位置以及用跟踪算法匹配结果更新滤波器状态的循环应 该停止。设定门限值a,如果r(七)>a,卡尔曼滤波器停止工作。这时可以利用前几帧 的目标位置线性预测下一帧的起始搜索位置(曼(|j}),夕(后))。同时,继续计算预测残差,.(尼), 如果r(七)小于a,下一帧卡尔曼滤波器重新开始工作。这样可以避免预测误差和匹配误 差的迭代累积,最终导致系统发散即跟踪目标。

4.2 Mean

Shift目标跟踪算法

Mean S11iR的概念最早是由Ful(岫aga提出来的【5l】它在一篇关于概率密度梯度函数

的估计的文章中使用了Mean S11iR。它最初含义正如其名,就是偏移的均值向量。随着 Me觚SlliR理论的发展,MeaIl SKR的含义也慢慢发生了变化。现在我们常说的Me孤SbiR 算法,一般是指一个迭代的步骤,即先算出当前点的偏移均值向量,移动该点到其偏移 均值,然后以此为新的起始点,继续计算均值偏移向量并移动,直到满足一定的收敛条 件才结束迭代。 虽然Mean SlliR的概念早在1975年就被提出来了,然而它在很长一段时间内都没 有引起人们的注意,直到20年以后,另一篇关于Me锄S11ift的重要文献【52】的才出现。 该文的作者Ⅵzong Cheng对基本的Me肌S11iR算法在以下两个方面做了推广:首先作者 定义了一簇核函数,使得随着样本点与被偏移点的距离不同,其偏移量对均值偏移向量 的贡献也不同;其次还引入了一个权重系数,使得不同的样本点重要性不一样,这大大 扩大了Meall ShiR的适用范围。

东南大学硕士学位论文

Comamciu也为MeaIl S11iR算法发展做出了重要贡献。他将Me锄ShiR算法引入了

多个应用领域,例如:他将Mean ShiR用于特征空间的分析【531,在图像平滑和图像分割 中Me觚ShiR都得取得了很好的效果。作者也证明了,MeaIl ShiR算法在满足一定条件 下,一定可以收敛到最近的一个概率密度函数的稳态点,因此Me锄S11in算法可以用来 检测概率密度函数中存在的模态。 关于MeaIl ShiR算法一个简单而全面的介绍,可以参见文献【51J。 2003年,Comamciu将MeaIl SlliR算法引入图像跟踪领域【54】【55】,提出了Me褫Shi】R 目标跟踪算法。该方法用基于距离加权的颜色直方图来描述目标外表模型,用 Bhanacharyya距离衡量衡量目标模型和候选目标的相似度,并用MeaIl ShiR算法迭代寻 找最优位置,利用梯度最优方法减少特征搜索匹配的时间,使得跟踪可以实时进行。 下面介绍MeaIl SlliR目标跟踪算法【54J。

4.2.1目标模型

MeaIl Sllijft目标跟踪算法是一种半自动跟踪算法,目标形状是通过人工选定一个矩

形区域(也可以是用运动目标检测的方法提取的一个运动目标区域)来确定的,一般用该 区域的内接椭圆描述目标的形状。为了消除目标不同维数尺寸的影响,首先要对目标做 归一化处理。可以分别用内接椭圆的长、短半轴长度办。和^。来调整目标像素的行列坐标, 将椭圆归一化为一个单位圆。

用Wb…。表示目标区域内像素的归一化坐标,目标中心的坐标为(o,o)。定义一个
核函数后(x)(核函数是一种各向同性的、凸的和单调递减的函数),它的作用是给目标模 板区域的像素分配不同的权值,即为远离目标模板中心的像素赋予较小的权值,而为靠 近目标模板中心的像素赋予较大的权值,因为远离目标模板中心的像素更容易受到其他 目标的遮挡或背景像素的干扰。然后计算该目标区域的空间加权颜色直方图 {口。,材=1,...,研)作为目标模型(实际上是前面的介绍的外表模型),具体的计算方法如下:

假设定义6:R2一{1,...,所)为图像的灰度值索引函数,即6(#)表示位置#处像素灰
度值,则目标模型中特征“=1,...,聊的概率密度可以用公式(4.13)计算出来。

免=c∑七qff『)仃【6(#)一z,】
f-l

(4.13)

其中: 七(x)为核函数,即距离加权函数; 6(x)为Kmnecker delta函数,研6(x;)一“】判断目标区域中位置x;处的像素灰度值是 否是甜,如果是该式等于1,否则等于O;

c是归一化参数,以保证罗”.毒。=1,计算方法见公式(4.14)。

c:———L ∑=I。七(蚓12)

●_一Ⅳ薯l一。





(4.14)

52

第四章目标跟踪

第4.1.1节中我们也介绍了一种用颜色直方图进行模板匹配的方法,与之相比,基 于距离加权颜色直方图融合了颜色的空间位置信息,用它描述目标外表,增加了算法的 鲁棒性,提高了搜索匹配跟踪能力。 4.2.2候选目标模型

待匹配图像中可能包含目标的区域称为候选目标区域,候选目标模型也是基于距离

加权的灰度直方图{允,“=1'...,聊)。用“)闰…%表示候选目标区域中像素的归一化位置,
且候选目标区域的中心坐标为y。参照目标模型的定义方法,利用尺度为向核函数惫(x)

对距离进行加权,候选目标模型中特征“=1,...,肌的概率密度允(y)可以由公式(4.15)计
算出来:

柚M喜叫降降瞅¨叫
其中: G是归一化参数,计算方法如公式(4.16)所示。

@柳

印司再
4.2.3目标模型和候选目标模型的相似度

@16’

注意到G并不依赖于候选目标的位置少,因为y也是{薯b…‰中的一员。所以,在
给定核函数的情况下,对于不同的核函数尺度办,可以事先计算好C。。核函数尺度J『】被 定义为候选目标的尺寸,在实际的计算过程中,改变尺度办可以选择候选目标的尺寸。

种函数有很多,包括Bh蝴aryya系数、Fisher线性判别函数、直方图交集及Kullback
散度。

通常情况下,相似性度量函数一般定义为目标模型和候选目标模型之间的距离。这

本文使用B№har),),a系数p(y)评价目标模型直方图和候选目标模型直方图的匹
声(y)暑p【多(y),毒】-芝瓶万石
Ⅳ=l

配程度,其定义如公式(4.17)所示。它有直观的几何意义,即朋维单位矢量(√A,...,√丸)r 和“毒"..,√毒朋)r之间夹角的余弦。
(4.17)

在此基础上,我们定义目标模板和候选目标模板这两个离散分布之间的距离为:

d(y)=√l—p【p(y),辱】(4.18)
公式(4.18)得到的统计测量适合于目标定位任务,原因包括:它与Bayes误差相近,

东南大学硕士学位论文

因此几乎是最优的:使用离散密度函数,不受目标的比例变化的影响;对于任意分布都 是有效的,而fisher线性判别仅仅当分类能够根据均值可分时才有效。 相似度测量方式己经在计算机视觉中广泛使用。下面将讲述如何运用均值偏移迭 代,在给定位置的邻域内将函数d(y)最小化,即目标定位。 4.2.4目标定位

在待匹配图像中定位目标的过程,也是目标模板毒与候选目标模板p(y)之间的距离 函数d(y)最小化的过程。定位过程也可以看成是从上一帧中目标位置开始,在其邻域内 搜索使d(y)最小的子图像区域。因为函数d(y)是光滑的,因此可以利用d(少)的梯度信 息完成最小化。虽然这里使用的是目标的颜色信息,但是对于纹理、边缘或任何特征的 组合,也可以使用距离函数d(y)的最小化来定位目标。

从公式(4.18)可知,距离函数d(y)的最小化与BhattaCharyya系数声(y)的最大化是等
价的。其过程是从前一帧的目标模板位置成处开始,在当前图像中搜索与目标模板匹配

的新的目标位置。因此,首先计算当前图像%处的候选目标的概率密度{A(允)>d…肼。 使用泰勒公式将p(J,)在p(成)附近展开,可以得到声(y)的一个线性近似:

舶岫,≈三善瓜丽+三弘y,√志

p【多(y),毒】≈寺∑√p。(夕。)盆。+寺∑p。(y)、/i考亳弋

@柳 (4.19)

当候选目标{p。(y)}心…。与初始的目标模型{免(成))问…。相比没有显著变化时,上述
线性近似可以得到满意的结果。对于实时目标跟踪来说,这种假设是合理的,因为相邻 两帧之间的时间间隔很短,所以可以保证候选目标模型相对于初始目标模板不会发生剧

烈的变化。公式(4.19)要求允(允)>o,“=1,...,聊(或者某个小的极限值),也提示我们尽量
使用目标所特有的颜色。回顾候选目标模型的计算公式(4.15),公式(4.19)可以变为公式 (4.20)的形式。

腼埔,≈三善瓜丽+导扣cI降n
其中: q是每个像素的权值,计算方法如公式(4.21)所示:

@2。,

铲善√淼讲6(矿∞】
置允,计算方法如公式(4.22)所示:

m厂—-

(4.21)

为了最小化p(y),由于公式(4.20)中的第一项与y无关,所以只需要公式的第二项 取最大值。不难发现,第二项就是利用核函数J|}(x)和当前图像中像素的权值计算得到位

置y处的概率密度估计。利用均值偏移方法,从当前位置成迭代计算出新的候选目标位

第四章目标跟踪

g@)是核函数J|}0)的导数,它要求在x∈【O,∞),除了有限数目的点之外,七(x)处处 可导。 实际应用中,经常选用EpaIlecllIl呔ov核函数: 七(x)=0.75半(1一x) 此时,g(x)将是一个常量,公式(4.22)可以简化为:
(4.23)

虫=一,gcx,=一七,cx,
乃2———————吾:———i}一,

∑?嘲0学II-)

g【x)2一彤。【x,

(4.22)

虫=謦
公式(4.22)就退化为简单的加权平均。
Mean Shift算法步骤
4.2.5

(4.24)

已知目标模型{蜃。)问…朋及目标在前一帧图像中的位置丸,计算目标在当前图像中的
位置允,具体算法步骤如下:

1)将当前图像位置丸的子图像看成候选目标,根据公式(4.15)计算候选目标模型

{多。(成))嘲…。,然后根据公式(4.17)计算Bhattach哪ra系数p【多(成),毒】;
2)根据公式(4.21)计算图像像素的加权系数{哆>瑚』。; 3)根据公式(4.23),计算候选目标的下一个新位置免;

4)根据公式(4.15)计算新位置或处的候选目标模型{p。(夕。))心…埘,并根据公式(4.17)

计算B№haryya系数讲p(或),毒】;
5)循环判断条件优多(夕。),毒】<p【多(丸),蚕】,若满足,则令夕l卜o.5×(成+或),重新 计算{p。(夕。))随棚和p瞳(夕。),们,直到讲多(夕。),盆】≥所多(丸),毒】;否则,执行下一步;

6)判断迭代收敛条件慨一成0<占,如果条件满足则停止迭代;否则,令成卜或,
返回步骤2继续寻找新的候选目标位置。。 步骤6中的s是预先选定的一个小的正常数,它给出了MeaIl SlliR迭代搜索收敛的

条件,s的选择标准是确保位置丸和或处在同一个像素晶格内,较低的阈值可以保证搜
索结果有更好的精度。同时为了保证跟踪过程的实时性,并防止由于目标遮挡或初始位 置不当造成迭代无法收敛的情况发生,也可以限制搜索的迭代次数,一般设为20,在实 验中发现实际的迭代次数一般不超过4次。步骤5是为了防止基于最大化的均值偏移在

东南大学硕士学位论文

数学计算上出现问题而设计的,此问题往往是由于计算Bhattacharyya系数时进行线性近 似而产生的,一般不需要执行。
4.2.6

Mean Shift目标跟踪算法小结

与标准的模板匹配目标跟踪算法相比,Meall SlliR目标跟踪算法最大的优点在于它 避免了模板匹配的暴力寻优过程,利用梯度下降方法通过几次迭代在邻域内找到当前图 像中的目标位置。由于MeaIl ShiR得到的结果是局部最优解,所以要想找到正确的目标 位置,算法要求初始候选目标区域要与当前图像中真实的目标区域有重叠,这样可以保 证找到的局部最优解也是全局最优解。 此外,类似于模板匹配算法,也需要相应的目标模型更新策略,以适应跟踪过程中 目标发生的变化。可以采用类似于公式(4.10)的加权平权模板更新方法。 同样,需要预测跟踪算法以处理目标暂时遮挡时位置估计问题。另外,使用预测算 法估计的位置,代替前一帧中的目标位置,作为Meall ShiR迭代搜索的初值,由于预测 位置更接近真实的目标,这样做还可以减少迭代的次数,提高算法的实时性。同样的, 建议使用卡尔曼滤波器,相关注意点同模板匹配算法

4.3摄像头固定场景下的多目标跟踪
摄像头固定的场合,可以采用先检测后对应的方式跟踪目标。即先用运动目标检测 算法检测每一帧图像中目标可能出现的区域,然后跟踪器再建立不同时刻图像中检测到 的运动目标之间的对应关系。 4.3.1多目标跟踪的难点 场景中存在多个运动目标时,跟踪问题会变得非常复杂,即便是摄像头固定的静态 场景。首先,多目标运动情况下,目标区域之间的相互干扰,会影响目标区域的检测精 度;其次,在创建多个目标在时间上的关联时,多目标之间可能存在多种对应关系,增 加了分析的复杂度;最后,同一时刻、不同目标可能具有不同的运动状态,需要采取与 运动状态相应的处理方法156J【57】。 因此,对于多目标跟踪系统而言,系统性能不仅与运动区域提取精度有关,还与运 动目标特征的选取、运动目标状态的分析有着密切的关系。多目标运动场合中,不同目 标图像区域的时域和空域变化特性不同,使得相邻场景内运动状态呈多样性变化。研究 发现,目标运动状态主要分成为以下五种不同情况【56J: (1)产生新目标:目标刚进入跟踪场景,跟踪器中没有任何关于该目标的信息。 (2)运动目标发生分裂:目标发生分裂可能由三种情况造成,第一种是目标真的发 了分裂,即原本在一起的两个或者多个目标分离开来;第二种是目标被静止的背景部

第四苹目标跟踪

分遮挡的结果;第三种是在运动目标提取时,错误的将运动目标分割成多个团块。 (3)运动目标发生合并:目标发生合并时,两个或多个目标的运动区域会重叠,无 法精确提取目标各自的运动区域。此时目标可能只是暂时性的相互遮挡,也可能会保持 合并状态共同运动。 (4)目标消失:目标信息与当前所有运动区域的特征均不吻合时,也存在两种可能 的情况,一种是目标离开场景,一种是目标被静止背景完全遮挡所致。对于后一种情况, 需要保持目标的信息,当目标再次出现时,不会将其作为新目标。 (5)一般情况:这是目标跟踪最理想的情况,即目标持续在场景内且未与任何目标 发生相互干扰。

前面介绍的妒运动目标检测算法可以准确的提取出静态场景中的运动目标,因此,
检测和分析上面的各种运动状态,成为解决静态场景多目标跟踪问题的关键所在。 4.3.2基于区域对应的多目标跟踪算法 假设运动目标检测算法可以提取出每一帧图像中的运动目标,我们可以通过区域对 应的方式建立不同时刻图像中的运动目标之间的对应关系,具体的算法描述如下: 由于人类眼睛的特殊生理结构,所看画面的播放速率高于16帧/秒的时候,才会被 认为是连贯的,即人眼视觉暂留现象。现代视频采集速率一般都会高于该值,例如标准 的PAL制视频的采样速率为25帧/秒,因此视频序列相邻两帧图像之间的时间间隔小于 62.5毫秒。如此短的时间内,对于日常监控场景的运动目标(例如行人、汽车等,点目 标和高速运动目标不在本文的研究范围之内)来说,它们位置的变化应该小于目标本身 所占据的空间范围。 基于上面的分析,我们认为,只要第f帧图像中观测到得某个运动目标的外接矩形 框和第f+1帧图像提出来的某个运动物体的外接矩形框有重叠区域,就可以认为它们属 于同一运动目标。下面分别分析上面的五种运动状态所对应的图像特征【58】: (1)一般情况:第f帧图像上的某个目标框只和第f+1帧图像上的一个框有重叠区 域,认为它们属于同一运动物体,图4.1(a)。 (2)融合事件:第f帧图像上的两个或两个以上的框都和第f+l帧上的同一个框有重 叠区域,图4.1①)。 (3)分裂事件:第f帧图像上的一个框同时和第f+1帧图像上的两个或两个以上的框 有重叠区域,图4.1(c)。 (4)进入场景:第f+1帧图像上的某个框在第f帧图像上找不到一个框与其在位置上 有重叠,则可认为可能有新的物体进入场景。 (5)离开场景:第f帧图像上的某个框在第,+ll帧图像上找不到一个框与其在位置 上有重叠,则认为该目标可能已经离开了场景。

57

东南大学硕士学位论文 i……………: A i……………

}B

(a)

(b) 图4.1区域对应运动状态判别示意图:

(c)

(a)一般情况;(b)融合:第i帧图像上的运动块A和B在第i+l帧图像上融合成一个运动块AB; (c)分裂:第i帧图像上的运动块AB在第i+l帧图像上分裂成两个运动块A和B。

对于进入场景和离开场景事件,一般不能通过一帧的处理结果来判别,而是需要通 过连续几帧的分析才能够判断是否真的有新目标进入场景或者有目标离开了场景。因 为,检测结果并不一定完全可靠,可能存在误检或将某个运动物体分割成多个区域,此 时会出现新团块,但是一般不会连续多次发生相同的情况,所以应该在相邻几帧里对检 测到得的新团块进行分析,如果同样的团块连续几帧都被检测出来(利用上面的一般情 况判别方法来分析是否是同一个目标产生的新团块),则认为有新目标进入了场景。此 外,对于离开场景事件的分析也是一样的,只有连续多帧都没有检测与之匹配的团块时, 才可以确定事件的发生,将该目标的信息从跟踪器中删除。此外,前景检测结果也给出 了运动目标的大小,很明显,相连两帧之间同一个运动物体的大小应该不会发生太大的 变化,所以也可以将目标大小融入判决,提升跟踪器的性能。与前面的跟踪器设计方法 一样,为了保证跟踪的连续性,对于暂时未能匹配上的目标,采取预测跟踪的方式进行 处理,即为跟踪器中的每个目标建立一个卡尔曼滤波器。 从上面的分析可以看出,区域对应方法利用运动物体在相邻帧中的相对位置进行跟 踪,方法简单、计算量小。目标进入场景、离开场景、一般情况和融合事件都可以直接 用区域对应方法直接判定。但是,对于先融合后分裂的运动团块,还需要区分分裂后的 目标。为了解决该问题,我们用目标区域的颜色直方图为每个进入场景的目标建立外表 模型,检测到分裂事件时,按照一定的特征匹配准则计算融合前、分裂后颜色特征的相 似性进行二次跟踪判定【58】1591。 4.3.3目标群融合分裂算法

颜色直方图E(x m)统计了第f帧图像中目标掰上颜色为x的像素数目,因为本 文主要处理的是灰度图像,所以可以统计灰度直方图。对E(X l聊)进行归一化可以得到 目标聊的每帧图像上的颜色分布£一(XI聊):

张帅,2券揣
58

(4.25)

为了鲁棒的表示目标外表,并适应目标在跟踪过程中的变化,在初始化根据目标时

第四苹目标跟踪

计算目标区域的颜色分布作为外表模型R(X l肌),然后再跟踪过程中对它进行加权更 新,则第f帧图像上目标朋的外表模型只(X l所)可以用公式(4.26)表示: P(XI朋)=a£一(Xlm)+(1一a)只_(xlm) 其中,a是一个尺度因子,其取值范围为O<a<1。 类似于MeaIl
(4.26)

SmR算法,用BhanaCh哪ra系数计算两个目标颜色模型只(x,朋)和
(4.27)

P(x,刀)的匹配程度S,(XI聊,刀): S,J(x l

m,咒)=∑工£(x I m圪(x I咒)

当颜色相似度大于某各门限值时,认为这两个物体属于同一目标;小于某个门限值 时,认为它们不属于同~目标。 在实际跟踪应用中,往往不只有两个目标发生分裂,会有多个目标发生分裂。同时, 目标群在某一时刻分裂后,并不是分裂成单一目标,而是多个小目标群。这时,需要判 定每个目标群分别包含哪些目标。为了解决这种对应问题,本文使用下面的算法【59】: 假设有Ⅳ个单一目标在第f帧时融合到了一起0=1,...,Ⅳ),记这N个目标的颜色模 型为:只(XI,z),n_1,2,...’N。 然后,该包含Ⅳ个单目标的团块在第,帧时分裂成M块(M<Ⅳ),根据公式(4.25)计 算这M个团块的颜色分布,记为:只(X I聊),In=l,2,...,M 则可以用下面的方法判断这刀个目标在分裂后分别处于哪个团块,根据公式(4.27)计 算只(x I,z)和£(x}历)的相似度墨,,(彳l聊,”),如果S。,(x I朋:”I)满足条件(4.28),则认 为第刀’个目标在第所’个团块中。否则,第刀’个目标不属于第聊’个团块。 墨,f(X I mt’万t)=m觚{墨,,(X I掰,刀)l珂=1,2,…,ⅣIn_1,2,...,M} (4.28)

本章的开始,我们提到关于目标跟踪的应用主要有两类:一种是摄像头随着运动目 标移动,使被跟踪的目标始终保持在图像的中心附近;另一种是摄像头固定,对视场内 的运动目标进行跟踪。 、下面分别给出单目标P’rZ相机随动跟踪(图4.2)和固定场景多目标跟踪的程序流程 图(包括图4.3 W4运动目标检测流程图和图4.4基于区域对应的多目标跟踪流程图)。其 中单目标跟踪使用前面介绍的模板匹配或Meall S11iR算法,固定场景多目标跟踪,先用

第2章介绍的改进的驴运动目标检测算法提取运动中的运动目标,然后用基于区域对
应的多目标跟踪算法建立目标之间的对应关系。

59

东南大学硕士学位论文

图4.2随动跟踪系统流程图

图4.3舻运动目标检测流程图

图4.4基于区域对应的多目标跟踪流程图

第四章目标跟踪

4.5实验结果

4.5.1模板匹配算法

因为ABS中的MSE、MAD、MCD准则性质基本类似,只是计算方法不同,因此 只取其中的一种与NC准则进行比较。图4.5给出了利用MSE和NC作为相似度准则的 匹配结果,其中图4.5(a)为模板图像,图4.5(b)为待匹配图像。

为了显示相似度计算结果册(f,,),利用公式(4.29)将册(f,.,)都调整到【O,1】范围内,
然后乘以255便得到我们显示的结果。

幽(f,,):』坐盟兰翌旦坚生 。~max(s阳)一nun(舢)

(4.29)
、 。

此外,由于MSE是以最小值点位匹配点,而NC是以最大值点位匹配点,为了以 相同的方式观察,所以还在MSE的结果图像做了取反操作,即255×(1一凼,(f,,)),这样 结果图像中像素的亮度便代表了该位置处的相似度,图像中亮度最高的点就是最终的匹 配位置。图4-5(e)(f)分别为利用MSE和NC匹配原图,(x,y)得到的结果,比较两幅图像 可以发现,虽然二者都可以找到正确的位置,但是NC相似度准则要优于MSE准则, 因为NC准则在匹配位置的相似度明显高于其他位置计算出来的相似度,而MSE准则 的区分度就没有这么高,即NC准则计算出来的相关峰更陡峭。

圈一一一
(c) (d)

瑟露圈圈
(e)

(1)【曲

(h)

图4.5 MsE与NC相似度准则比较实验:

(a)模板图像;(b)原始待匹配图像,@,y);(c)亮度增加‘O,y)=,(x,J,)+20; (d)线性亮度调节厶(x,y)=O.9×,(x,y);(e)利用MsE准则匹配原图J(x,y)的结果: (f),(g),(h)分别为利用Nc准则匹配,(x,y)、‘(x,y)和厶(x,y)的结果图像。 此外,为了检测NC准则对亮度变化的鲁棒性,分别将图像的亮度人为的整体调高 和线性缩小,参见图4—5(C)‘(x,y)=J(z,J,)+20和图4-5(d)厶(x,少)=,(x,y)×0.9。然后
6l

东南大学硕士学位论文

在用NC准则匹配图像厶(x,y)和厶(x,y),分别得到结果图像图4-5(g)(h)。比较图像 (f)(g)(h)发现,三者差别不大,也验证前面的结论:即NC准则对亮度全局变化和线性变 化不敏感。 图4.6给出了模板匹配跟踪实验结果,通过鼠标点选目标,模板尺寸固定为16×16像 素,搜索窗口尺寸32×32。图像分别为视频的第1、10、20、…、120帧。黑色的框为卡 尔曼滤波器的预测位置,白色的框为匹配的位置。由于第一帧卡尔曼滤波器还处在初始 化期间,还没有开始工作,所以图像中没有黑色的框。此外,如果只看到黑色的框,说 明匹配位置和预测位置重合。从跟踪结果来看,在目标形状和姿态没发生显著变化的情 况,模板匹配跟踪算法可以跟踪所选的目标。

图4-6模板匹配跟踪结果:从左到右、从上到下图像分别为视频的第1、10、20、…、120帧 黑色的框为卡尔曼滤波器的预测位置,白色的框为匹配的位置。

一一一■ 一一一■ 一一一■

图4—7给了卡尔曼滤波位置预测误差曲线,x轴为时间,单位为帧,y轴为预测误差, 单位为像素。结束末端的震荡是由于目标运动状态开始发生改变造成的。

图4.7卡尔曼滤波位置预测误差曲线

第四章目标跟踪 4.5.2

Mean Shift算法

图4.8给出了Me锄Sllift跟踪算法的一组跟踪结果。整个视频序列一共有550帧, 包括了平稳运动、突然开始加速、一般遮挡、完全遮挡的情况,MeaIl SlliR算法始终能 够锁定目标。前几帧是平稳运动,我们发现跟踪在目标区域小范围滑动,这是因为Me锄 S11iR算法使用外表模型是位置加权直方图,本质是一种统计特征,由于未包含精确的位 置信息,所以跟踪框会在一定区域滑动。虽然第200帧左右,目标大小发生了变化(渐 渐变小了),但是MeaIl S11iR仍然能够锁定跟踪目标,验证了前面所说的MeaIl S11iR算 法对目标尺寸和姿态变化不敏感。第360.405帧演示了遮挡情况下的跟踪结果,从开始 的部分遮挡到后来的完全遮挡,本文介绍的预测跟踪及遮挡判断达到了设计的效果。当 目标在第400帧左右再次出现时,跟踪算法重新锁定目标继续跟踪,直到目标在第460 帧离开场景。

一■一一 一一一一 一一一一 一一一一
图4.8 Me锄ShiR算法跟踪结果:从左到右、从上到下分别为视频序列的

第2、40、80、120、160、200、240、320、360、375、385、395、405、425、450、460帧。

虽然Me趾SlliR算法在上面的视频序列上取得了很好的效果,但是当我尝试利用前 面的运动目标检测视频做跟踪实验时,却很容易跟丢目标。通过仔细研究发生,那是由 于Mean SmR使用的直方图描述外表,所以只能处理那些比较大的目标。目标太小,像 素太少,统计其分布也就失去了意义。而运动目标检测视频中的运动目标往往是从远处 进入场景,故一开始目标尺寸很小,然后才慢慢变大。对于这种由小变大的情形,只要 稍有干扰,便很可能会丢失目标。
63

东南大学硕士学位论文

4.5.3单目标随动跟踪效果 整个实验平台包括支持PELCO.D协议的球机、安装在球机上的摄像头、PCI图像 采集卡型号北京大恒图像有限公司的DH.VTl20l。通过采集卡将摄像机采集的图片读 入计算机,计算机与球机之间通过串口通信,二者之间通过RS232—485转接头连接。 整个随动跟踪测试系统包括图像采集模型,球机控制模块,串口通信模块和图像跟 踪模块简介,软件运行界面如图4.5所示,包括控制界面和显示窗口,左边显示是采集 回来的图像,右边显示的跟踪处理后的结果。操作流程为,通过鼠标左键在采集回来的 实时图像上选择要跟踪的目标,随后系统将自动跟踪选中的目标,并将目标保持在视场
中央。

图4.5随动跟踪测试系统运行界面

图4.9是模板匹配跟踪算法用于随动跟踪系统的实验结果,内边框为模板大小,外 边框为波门,即匹配搜索的区域。用MCD作为相似度评价准则,跟踪时先将采集回来

的图像转换成灰度图像,为了显示效果跟踪框还是叠加在采集回来的I沁B图像上。图
片是从整个跟踪过程中随机抽取出来的。

图4.9随动跟踪系统演示结果

第四章目标跟踪

4.6本章小结
本章首先介绍了两种常用的单目标跟踪算法:模板匹配跟踪算法和Mean S11iR跟踪 算法。除了给出了算法的主要步骤,还讨论了目标模型的更新问题、位置预测问题以及 遮挡情况的判断与处理问题。 关于模板匹配算法,介绍并比较了常用的相似度度量准则。绝对平衡搜索法原理简 单,但是在图像发生变化时,效果会变得很差。归一化互相关法可以处理图像图像的全 局变化和线性变化,但是计算量更大。直方图匹配算法使用的统计特征,对目标旋转和 形变不敏感,但是会受到相似物体的干扰。针对模板匹配全局寻优带来的计算量大的问 题,介绍了两种加速匹配搜索的方法,包括序贯相似度检测算法和金字塔分层搜索算法。 关于MeaIl S11iR跟踪算法,介绍了MeaIl S11iR算法的起源与发展。它不需要全局寻 优,可以通过有限次数的迭代收敛到目标所处的位置。Me锄ShiR算法可以实时跟踪选 定的目标,但是由于算法是收敛到局部最优解,所以需要提供一个较好的迭代初值。为 了跟踪速度较快的目标,利用卡尔曼滤波器的预测位置作为迭代初值,并结合模型更新 和遮挡处理,算法可以实时的稳定的跟踪选中的目标。

然后结合改进的妒算法,介绍了一种基于区域对应的多目标跟踪算法,解决了固
定摄像头场景运动目标检测与跟踪问题。 本章的最后给出了跟踪算法的演示结果。

65

第五章总结

第五章总结
本文主要研究户外自然光环境下实时视频分析技术,包括静态背景下的场景中的运 动目标检测与跟踪以及单目标随动跟踪。 在运动目标检测方面,介绍了目前常用的三类方法:光流法,时域差分法和背景减 除法。根据算法的性能及我们的应用需求,选择背景减除法作为我们的研究对象,讨论 了背景建模和运

相关文章:
基于OpenCV的运动目标检测与跟踪
基于OpenCV的运动目标检测与跟踪_计算机软件及应用_IT/计算机_专业资料。基于OpenCV...正因如此,对运动目标的跟踪 和检测的研究很有价值。 1.2 数字图像处理技术的...
运动目标检测方法总结报告
近年来,越来越多的研究机构和学者都参与到基于视频的运动 目标检测的研究之中,...[4] 朱宏 . 基于视频序列的运动目标检测与跟踪技术研究 [D]. 西南交通大学...
基于背景差分法的运动目标检测
智能监控技术基于计算机视觉的具 有高度智能的自动化监控技术,其核心内容包括运动检测、目标分类、目标跟踪、行 为识别四个方面。 本文针对运动目标检测这一方面进行...
运动目标检测与跟踪算法研究
运动目标检测与跟踪算法研究 视觉是人类感知自身周围复杂环境最直接有效的手段之一, 而在现实生活中 大量有意义的视觉信息都包含在运动中,人眼对运动的物体和目标也...
检测和跟踪视频监控中的运动目标
在本文中,我们是在视频监控的背景下解决检测和跟踪运动目标的问题。大多数用 于这个问题的技术使用一个固定的相机[ 4,3 ]或封闭的世界表示[ 6,8 ]并且这些都...
基于MATLAB的运动物体轨迹跟踪 毕业论文
基于MATLAB的运动物体轨迹跟踪 毕业论文_工学_高等教育_教育专区。运动目标检测,...29 第一章 绪论 1.1 课题的研究背景及意义 随着计算机技术的不断发展,计算机...
目标跟踪算法的分类
运动目标跟踪问题的研究 上,总体来说有两种思路:...当前图像与背景图像的差分来检测运动区域的一种技术...基于的运动估算和补偿可算是最通用的算法。 可以...
基于帧间差分法的目标运动检测算法开题报告
研究□ 论文□ 学生姓名: 学号: 郭凯 3100701135 计算机 101 计算机科学与技术 ...在运动目标检测基础上,提出一种在简单背景下基于自适应窗口调整的跟踪门将检测到...
动态视频目标检测和跟踪技术(入门)
动态视频目标检测和跟踪技术(入门)_IT/计算机_专业资料...光流 基于光流方法(Optical Flow)的运动检测采用了...并自动发送 PTZ 控制指令,使摄像机 能够自动跟踪...
目标检测识别调研总结
基于波频的检 测和基于视频处理的检测法三大类。...使用视频技术对车辆的运行 状态进行检测追踪,取得...其中前三种方法主要用于运动目标的检测,后两种则同样...
更多相关标签: