光子学报  2019, Vol. 48 Issue (10): 1010001  DOI: 10.3788/gzxb20194810.1010001
0

引用本文  

吕坚, 邓博, 阙隆成. 复杂红外地面环境下的稳定目标跟踪方法[J]. 光子学报, 2019, 48(10): 1010001. DOI: 10.3788/gzxb20194810.1010001.
LÜ Jian, DENG Bo, QUE Long-cheng. Stable Object Tracking Method for Complex Infrared Ground Environment[J]. Acta Photonica Sinica, 2019, 48(10): 1010001. DOI: 10.3788/gzxb20194810.1010001.

基金项目

国家自然科学基金(Nos.61235006,61775027)

第一作者

吕坚(1977-), 男, 教授, 博士, 主要研究方向为红外探测器与光电系统.Email:lvjian@uestc.edu.cn

通讯作者

阙隆成(1987-), 男, 助理研究员, 博士, 主要研究方向为红外探测器.Email:lcque@uestc.edu.cn

文章历史

收稿日期:2019-02-25
录用日期:2019-05-10
复杂红外地面环境下的稳定目标跟踪方法
吕坚 , 邓博 , 阙隆成     
(电子科技大学 光电科学与工程学院, 成都 610054)
摘要:针对红外目标相关滤波跟踪过程中由于背景杂波干扰、目标遮挡和目标形变等情况导致的鲁棒性差甚至跟踪目标丢失的问题,提出一种融合跟踪-学习-检测方法和相关滤波理论的红外目标跟踪算法.该算法在传统相关滤波框架基础上,融合目标的方向梯度直方图特征和亮度直方图特征,改善了目标轻微形变导致的模型漂移问题.针对背景杂波和遮挡导致的多峰值响应问题,对目标背景区域的相关响应进行惩罚,建立目标和背景响应的多模态检测机制,实现目标由粗到精的定位,并采用自适应的学习率优化跟踪模型的漂移问题;针对目标被严重遮挡或脱离视野的问题,通过全局目标再检测,实现目标的重捕.实验结果表明,在复杂红外地面环境下,该算法有效地解决了相似目标干扰和目标被严重遮挡导致的目标丢失问题.基于OTB-2015视频基准序列和红外视频序列测试,对比多个主流的相关滤波跟踪算法,该算法在跟踪精度和成功率方面较长时相关滤波跟踪算法分别提升了5.6%和4.1%;在目标遮挡指标测试中,该算法在跟踪精度和成功率方面相较长时相关滤波跟踪算法分别提升了4.6%和6.1%.
关键词红外探测    目标跟踪    相关滤波    自适应    目标重捕    
中图分类号:TP391.4      文献标识码:A      
Stable Object Tracking Method for Complex Infrared Ground Environment
LÜ Jian , DENG Bo , QUE Long-cheng     
(School of Optoelectronic Science and Engineering, University of Electronic Science and Technology of China, Chengdu 610054, China)
Foundation item: The National Natural Science Foundation of China (Nos.61235006, 61775027)
Abstract: Aiming at the problem of tracking failure and less robustness caused by background clutter, occlusion and object deformation in infrared object tracking, an infrared object tracking method combining tracking-learning-detection method and correlation filtering theory was proposed. Based on the traditional correlation filtering framework, the proposed method combines the direction gradient histogram feature and the luminance histogram feature to improve the model drift caused by slight deformation of the target. Aiming at the multi-peak response problem caused by background clutter and occlusion, the response of the target background area was punished, and the multi-modal detection mechanism of target and background response was established to achieve the target from coarse to fine positioning, and the adaptive learning rate was used to optimize the drift problem of the tracking model; Aiming at the problem that the object was severely occluded or the object was out of view, the global re-detection of the target was implemented to achieve the target re-capture. The experimental results show that the proposed algorithm effectively solves the object loss caused by background clutter and occlusion in the complex infrared ground environment. Based on the benchmark OTB-2015 and infrared video sequence test, compared with the mainstream correlation filtering tracking algorithms, the proposed algorithm improves the tracking accuracy and success rate by 5.6% and 4.1% respectively compared with the Long-term Correlation Tracking (LCT) algorithm; In the occlusion index test, the proposed algorithm improves the tracking accuracy and success rate by 4.6% and 6.1% respectively compared with the LCT algorithm.
Key words: Infrared detection    Target tracking    Correlation filter    Adaptive    Object recapture    
OCIS Codes: 040.3060;100.4999;100.3008;100.2000;100.4993
0 引言

红外成像运用光电技术检测物体热辐射的特定波段信号,适用于夜晚、雾霾、沙尘等能见度低的天气情况.目标跟踪技术在近些年取得极大的进步,并广泛应用于安防监控、机器人以及人机交互等领域,其作为红外技术发展的关键技术之一,不仅受到红外图像的目标特征不足影响,也受限于跟踪过程中的目标外观形变、相似背景干扰以及遮挡等因素带来的挑战.

目前目标跟踪模式主要分为:生成模式、判别模式和基于深度学习的三大类.生成类算法是对当前帧目标区域图像建模,在下一帧图像中寻找与模型最相似的区域作为预测目标位置,比较典型的有卡尔曼滤波[1],粒子滤波[2],mean-shift[3]滤波等.判别类算法则基于目标正负样本,训练分类器模型,在下一帧图像中根据训练得到的分类器计算最优区域作为预测目标位置,比较典型的方法有多示例学习(Multiple Instance Learning, MIL)[4]和结构化支持向量机(Structured Support Vector Machine, SSVM)[5]等.与生成类算法的主要区别在于,判别类算法在训练分类器中增加了背景信息,因此判别类算法普遍优于生成类算法;比较经典的有跟踪-学习-检测(Tracking-Learning-Dectection, TLD)算法[6]和长时相关跟踪(Long-term Correlation Tracking, LCT)算法[7]等.近年来,比较主流的一类算法是基于相关滤波(Correlation Filter, CF)的跟踪算法,它们具有精度高、速度快、鲁棒性好等特点.CF类算法通过将输入特征回归为目标高斯分布来训练滤波分类器,在下一帧图像中利用相关滤波计算响应矩阵,将其中响应最大值的位置返回为预测的目标位置.由于利用循环矩阵和快速傅里叶变换的特性,实现计算速度的大幅提升.其中,早期的单通道灰度特征的相关滤波(Minimum Output Sum of Squared Error, MOSSE)[8]算法速度达到了615 FPS,后续的核化相关滤波(Kernelized Correlation Filters, KCF)算法[9]在MOSSE的基础上引入了多通道梯度的方向梯度直方图(Histogram of Oriented Gradient, HOG)特征和核函数,判别尺度空间跟踪(Discriminative Scale Space Tracking, DSST)算法[10]则在MOSSE基础上增加了尺度计算估计,利用两个相对独立的相关滤波器可以分别实现目标的跟踪和尺度变换.然而,基于相关滤波的目标跟踪算法由于只返回响应矩阵最大值位置和固定的学习率,因而在应对长期跟踪过程中发生的外观快速变形、相似背景干扰和目标遮挡等情况时,容易导致漂移.基于深度学习的目标跟踪算法,因其更加鲁棒的深度特征、更弱的边界效应等优点,近些年发展迅速,对于深度学习的目标跟踪算法又可细分为基于互补孪生网络(Siamese Networks, SN)框架的跟踪算法和结合深度特征和相关滤波的端到端目标跟踪算法,其中,基于SN典型的算法有CFNet[11]等,而另一种的典型有多域卷积神经网络(Multi-Domain Convolutional Neural Networks, MDCNN)[12]等算法.基于深度学习的目标跟踪算法,因其更好的鲁棒性特征,对于相似干扰或轻微形变等具有较强的稳定性,但在解决目标严重遮挡或者目标脱离视野时,仍然无法独立有效地解决,需要配合相应的约束机制和相应的找回模块,这在SN框架下体现极为明显.

为了解决在复杂红外地面环境下的背景杂波干扰、目标形变以及目标被遮挡等情况导致跟踪鲁棒性差的问题.在相关滤波跟踪算法的基础上提出一种复杂背景下的红外目标跟踪算法(Complex Background Infrared Tracking, CBIT).首先,增加一个在线检测分类器,利用再检测机制配合完成目标重捕,以解决目标被遮挡问题;同时,结合目标背景区域的特征信息对其响应进行约束以抑制相似目标的干扰;最后对强相似目标建立多模态检测机制,实现目标的由粗到精的定位;由多模态计算结果,自适应更新相关滤波模型学习率,解决固定学习率在跟踪遮挡和目标形变时的跟踪漂移问题.实验结果表明,在红外地面复杂背景下,该跟踪算法能有效解决背景相似干扰和目标遮挡的情况, 具有较好的准确性和鲁棒性.

1 KCF算法和TLD算法 1.1 KCF算法

相关滤波跟踪算法是一种从信号处理领域扩展到目标跟踪领域的方法,其基本思想是根据当前帧的信息和前一帧的信息训练出相关滤波器,然后对下一帧图像进行相关计算,得到响应矩阵中的最大值位置作为预测的跟踪结果.KCF算法在MOSSE[8]算法和CSK算法[13]的基础上引入循环矩阵来扩展样本,在保留实时性的同时,进一步提高跟踪精度.KCF算法给定的训练样本集{(xi, yi), i =1, 2, …, l},找到一个线性函数实现样本xi和回归目标yi的平方误差最小化,即岭回归.参考式(1).

$ \mathop {\min }\limits_w \sum\limits_i {{{\left[ {f\left( {{x_i}} \right) - {y_i}} \right]}^2}} + \lambda {\left\| \mathit{\boldsymbol{w}} \right\|^2} $ (1)

式中,λ是正则化参数,用来控制过拟合.由岭回归问题存在闭式解[9],将式(1)转换到傅里叶域,即

$ \mathit{\boldsymbol{w}} = {\left( {{\mathit{\boldsymbol{X}}^{\rm{H}}}\mathit{\boldsymbol{X}} + \lambda \mathit{\boldsymbol{I}}} \right)^{ - 1}}{\mathit{\boldsymbol{X}}^{\rm{T}}}y $ (2)

式中,Xl个样本的特征集,I为单位矩阵,XHX的共轭转置.当样本线性不可分时,通过引入核函数,将样本投影到高维特征空间,从而使其线性可分,对应的参数w训练问题简化为式(3),原始空间中的参数w变成对偶空间中的参数a.

$ \mathit{\boldsymbol{a}} = {\left( {\mathit{\boldsymbol{K}} + \lambda \mathit{\boldsymbol{I}}} \right)^{ - 1}}y $ (3)

式中,K为核函数矩阵,a是系数ai的向量,代表对偶空间中的解.根据循环矩阵卷积性质,将式(2)和式(3)的计算转化到傅里叶域内,相应地得到.

$ F(\mathit{\boldsymbol{w}}) = \frac{{F(x) \odot F(y)}}{{F\left( {{x^*}} \right) \odot F(x) + \lambda }} $ (4)
$ F(\mathit{\boldsymbol{a}}) = \frac{{F\left( y \right)}}{{F\left( {{k^{xx}}} \right) + \lambda }} $ (5)

因DFT的计算复杂度较低,则算法时间复杂度由O(n3),降低为Ol(nogn).最后响应值通过式(6)进行计算.

$ \hat f\left( \mathit{\boldsymbol{z}} \right) = {{\mathit{\boldsymbol{\hat k}}}^{\mathit{\boldsymbol{xz}}}} \odot \mathit{\boldsymbol{\hat a}} $ (6)

KCF算法也存在着不足:目标快速运动边界效应造成的目标特征变化导致跟踪失败;只返回响应矩阵最大值位置,当响应矩阵出现多峰值时,真实跟踪目标位置可能在非全局最大值外的极大值处;跟踪目标的尺度变化适应性差;采用固定学习率,目标发生形变或者遮挡时会发生跟踪漂移.

1.2 TLD算法

TLD算法[6]作为经典的长期跟踪算法,算法框架由检测、跟踪和学习3个模块组成,如图 1.其核心思想是通过在线学习机制对跟踪器模型和检测器模型不断修正.如果跟踪器跟踪的目标丢失则使用检测器进行全局扫描,并将检测结果提交给学习模块,最终从正样本中选择置信度最高的位置作为输出并更新跟踪器.TLD算法虽然能够一定程度上解决跟踪器的模型漂移问题,但当目标被严重遮挡时,检测器和跟踪器跟踪目标均丢失,进而造成检测器全局检索巨大耗时;同时基于光流法的跟踪器,在目标运动幅度过大或发生大尺度形变时,也易丢失目标.

图 1 TLD算法框图 Fig.1 Conventional TLD algorithm block diagram
2 本文算法 2.1 基于背景惩罚的相关跟踪模块

由1.1节可知,KCF算法从目标周边循环采样训练再预测,如果目标周边有较大的背景噪声干扰,则会对回归最大响应值产生干扰,如图 2.其中白色区域的响应参考图 2(b),可以发现当目标形变易造成响应图出现多峰值.如果接下来发现目标发生形变或快速移动,则可能造成目标漂移甚至丢失.

图 2 传统KCF算法在复杂背景下的响应图 Fig.2 Response diagram of KCF algorithm in complex background

针对上述问题,从训练样本的区域进行针对性处理.将式(1)修改为式(7).式中,A0为目标区域经过循环移位后的目标矩阵,λ1为控制过拟合的参数.

$ \mathop {\min }\limits_\mathit{\boldsymbol{w}} \sum\limits_i {{{\left( {{\mathit{\boldsymbol{A}}_0}\mathit{\boldsymbol{w}} - {y_i}} \right)}^2}} + {\lambda _1}\left\| \mathit{\boldsymbol{w}} \right\|_2^2 $ (7)

考虑目标背景信息,如图 2,优化式(7)得到式(8).增加目标区域A0周边8个区域(目标预测区域的左上、上、右上、左、右、左下、右下8个等面积区域)的相关响应计算,通过检测响应值范围,对其进行筛选惩罚,从而实现对背景杂波有效抑制.

$ \mathop {\min }\limits_\mathit{\boldsymbol{w}} \sum\limits_j {{{\left( {{\mathit{\boldsymbol{A}}_0}\mathit{\boldsymbol{w}} - {y_j}} \right)}^2}} + {\lambda _1}\left\| \mathit{\boldsymbol{w}} \right\|_2^2 + {\lambda _2}\sum\limits_{i = 1}^k {\left\| {{\mathit{\boldsymbol{A}}_i}\mathit{\boldsymbol{w}}} \right\|_2^2} $ (8)

式中,Ai为上下文背景信息区域对应的循环矩阵,λ2为控制过拟合参数.

在构造优化函数时,因增加考虑周边背景信息,将周边背景响应回归至0值[14],再将新回归函数合并,即

$ {f_p}\left( {\mathit{\boldsymbol{w}},\mathit{\boldsymbol{B}}} \right) = {\left\| {\mathit{\boldsymbol{Bw}} - \mathit{\boldsymbol{\bar y}}} \right\|^2} + {\lambda _1}{\left\| \mathit{\boldsymbol{w}} \right\|^2} $ (9)

系数矩阵BA构造,背景响应构造为Y.式中,$\mathit{\boldsymbol{B}} = {\left[ {{\mathit{\boldsymbol{A}}_0}, \sqrt {{\lambda _2}} {\mathit{\boldsymbol{A}}_1}, \cdots , {\mathit{\boldsymbol{A}}_k}} \right]^{\rm{T}}}$Y=[y, 0, …, 0]T.由此得到该回归的解为

$ \mathit{\boldsymbol{w}} = {\left( {{\mathit{\boldsymbol{B}}^{\rm{H}}}\mathit{\boldsymbol{B}} + {\lambda _1}\mathit{\boldsymbol{I}}} \right)^{ - 1}}{\mathit{\boldsymbol{B}}^{\rm{T}}}\mathit{\boldsymbol{\bar y}} $ (10)

与式(4)、(5)相似,将式(10)转化到频域内,得到相似形式的式(11).

$ \mathit{\boldsymbol{\hat w}} = \frac{{\mathit{\boldsymbol{\hat a}}_0^* \odot \mathit{\boldsymbol{\hat y}}}}{{\mathit{\boldsymbol{\hat a}}_0^* \odot {{\mathit{\boldsymbol{\hat a}}}_0} + {\lambda _1} + {\lambda _2}\sum\nolimits_{i = 1}^k {\mathit{\boldsymbol{\hat a}}_i^* \odot {{\mathit{\boldsymbol{\hat a}}}_i}} }} $ (11)

使用上述灰度图继续测试,参考图 3结果.从图 3(b)可知,原始KCF算法灰框内出现了三个类似的响应峰值,先计算背景响应图,再和原响应图进行线性插值,得到图 3(c).对比图 3(b)可知,除开原始最大响应外,其他都被一定程度惩罚.证明了背景的响应惩罚,有利于改善模型漂移问题.

图 3 改进相关滤波的响应图 Fig.3 Improve the response graph of the correlation filter
2.2 由粗到精多极值检测算法

2.1节的背景惩罚机制,能在一定程度上解决背景杂波引起的模型漂移,但是针对遮挡和杂波干扰混合问题,跟踪模型发生漂移依然无法有效解决.如图 4,在复杂场景下的目标跟踪过程中,由于目标遮挡和相似背景的干扰,导致出现多峰值响应问题,通过加入背景惩罚项后虽然多峰值变为单峰值,但最大值已从目标真实响应位置A变为遮挡物的响应位置D,且随着遮挡逐渐严重,目标A开始丢失.

图 4 相关滤波跟踪过程中的响应矩阵多极值现象 Fig.4 Multi-extremum in the response matrix during correlation tracking

针对图 4所示的目标因遮挡和干扰导致跟踪模型漂移甚至目标丢失的问题,在背景惩罚的基础上由粗到精,建立多模态检测机制,实现目标由粗到精的定位.多峰值遮挡的前向检测算法[15]仅针对出现较多的干扰峰值的情况.当仅仅出现一个峰值相当的遮挡目标时,平均峰值相关能量(Average Peak-to Correlation Energy, APCE)依然处在较大值水平,可能会误判断为目标未被遮挡,导致模型更新,进而引起模型漂移.在APCE基础上,增加对子窗检测窗口进行预判断.如式(12)所示,式中,F(max, loc)为目标区域最大响应值,F(min, Loc)为最小响应值,F(r, c, Loc)为第r行,第c列的响应值.FGlo则表示原LMCF检测区域,FLoc=βFGloβ根据实际应用场景确定.

$ {\rm{UPCE}} = \frac{{{{\left| {{\mathit{\boldsymbol{F}}_{(\max ,{\rm{Loc}})}} - {\mathit{\boldsymbol{F}}_{({\rm{min}},{\rm{Loc}})}}} \right|}^2}/\sum\nolimits_{\left( {r',c',{\rm{Loc}}} \right)} {{{\left( {{\mathit{\boldsymbol{F}}_{\left( {r',c',{\rm{Loc}}} \right)}} - {\mathit{\boldsymbol{F}}_{({\rm{min}},{\rm{Loc}})}}} \right)}^2}} }}{{{{\left| {{\mathit{\boldsymbol{F}}_{({\rm{max}},{\rm{Glo}})}} - {\mathit{\boldsymbol{F}}_{({\rm{min}},{\rm{Glo}})}}} \right|}^2}/\sum\nolimits_{\left( {r,c,{\rm{Glo}}} \right)} {{{\left( {{\mathit{\boldsymbol{F}}_{\left( {r,c,{\rm{Glo}}} \right)}} - {\mathit{\boldsymbol{F}}_{({\rm{min}},GLo)}}} \right)}^2}} }} $ (12)

当UPCE < Th,目标被遮挡或被严重干扰(Th为遮挡阈值),需要在上一次UPCE>Th目标位置区域重新计算目标的相关响应值,并对背景区域的相关响应值进行压缩,参考式Fb=Fmean+γFb,式中γ为压缩系数.以此结果来作为目标预测值.利用图 4进行测试验证该方案,结果如图 5,可知背景区域和干扰值得到了一定程度的抑制,目标位置没有出现较大的偏移.

图 5 干扰响应区域抑制效果图 Fig.5 Inhibition effect map of the area of interference response

若UPCE>Th,目标未被遮挡,则计算惩罚背景后融合的最大响应值F,作为预测跟踪点.将目标和背景的响应,按比例将响应线性叠加,F=k1×Fo+k2×Fb;反之,只考虑目标区域的响应,F=k1×Fo,式中,Fb为背景区域响应矩阵,Fo为目标区域响应.

再考虑亮度直方图特征的响应Fhist,因其对光照敏感、形变不敏感,特征正好和HOG特征互补,对两种特征的响应进行线性加权,参考式(13),实现目标由粗到精的定位,式中,η为权重系数.

$ {\mathit{\boldsymbol{F}}_{{\rm{all}}}} = {\eta _1}\mathit{\boldsymbol{F}} + {\eta _2}{\mathit{\boldsymbol{F}}_{{\rm{hist}}}} $ (13)
2.3 自适应学习率更新

相关滤波算法一般采用固定的学习率和线性模板更新,在目标发生形变时,模型更新的学习率取值固定无法及时更新,容易造成跟踪目标丢失;当学习率取值太大时且目标发生轻微遮挡,相关模型可能误认为遮挡物为跟踪目标,也会导致跟踪失败.结合2.2节遮挡和杂波干扰的分析,设定跟踪稳定标志flag,参考式(14).

$ {\rm{flag}} = \left\{ {\begin{array}{*{20}{c}} 0&{{\rm{UPCE}} > {\rm{Th}}}\\ 1&{{\rm{UPCE}} \le {\rm{Th}}} \end{array}} \right. $ (14)

在式(14)基础上实时计算学习率,如式(15)所示,ηstd为正常学习率,这里取值为0.05,γ为学习率调整系数.如果出现两帧及其以上满足严重遮挡条件(UPCE < Th)时,不再进行模板更新.

$ \eta = \left\{ \begin{array}{l} {\eta _{{\rm{std}}}}\;\;\;\;{\rm{flag}} = 0\\ \frac{1}{{1 + {\gamma _l}{\eta _{{\rm{std}}}}}}\;\;\;\;\;{\rm{flag}} \ne 0 \end{array} \right. $ (15)
2.4 融合TLD框架的相关滤波算法

当改进的相关滤波算法在连续多帧出现目标被全遮挡时,需要在新帧中进行再检测找到目标.利用TLD框架的再检测机制,通过其检测器对全图进行检索找到目标,并将改进的相关滤波算法作为TLD算法的跟踪模块,以改善原光流法的漂移问题.当全遮挡在几帧范围时,真实目标尚未移出检测区域G,目标检测范围仍为跟踪丢失区域G.但目标遮挡期间发生较大移动时,当目标重新出现后已经不在检测区域,这时需要进行全局扫描匹配.

图 6 改进TLD算法与ICF算法融合的算法框架图 Fig.6 The block diagram of combination algorithm of the improved TLD and ICT
2.5 算法实现

本文算法针对红外图像,因此只选用了灰度信息.这里选用HOG特征,以及亮度直方图作为图像特征.目标检测模型采用了Vlfeat工具箱中SVM工具.算法流程如下,跟踪流程示意图如图 7.

图 7 算法流程示意图 Fig.7 Flowchart of the proposed tracking algorithm

1) 输入第一帧红外图像和目标区域标注值,提取HOG特征训练滤波模型,训练尺度模型、检测模型和学习模型;

2) 输入下一帧红外图像,对目标搜索区域进行周边8区域扩展,提取目标和背景HOG特征,对目标搜索区域提取亮度直方图特征;

3) 分别计算HOG特征和亮度直方图特征的响应矩阵rcfrhist,如果UPCE小于阈值Th,对目标搜索区域外响应值进行惩罚,并对目标搜索区域重新计算rcf

4) 线性归一化响应矩阵r,找到精确目标位置,以该位置为中心计算最佳尺度;

5) 利用连续帧响应值判断目标跟踪丢失,如果丢失,调用检测模型进行检测,如果目标未丢失更新目标滤波模型、学习模型和检测模型.

6) 返回目标位置.

3 实验结果及分析

实验采用两种测试数据集进行测试,第一种OTB-2015[16]数据集视频序列进行测试,第二种采用自建的红外视频序列进行测试.测试环境:编程环境MATLAB为2016b,系统平台:Intel Core i5, 8G笔记本电脑.

3.1 Benchmark dataset测试

通常跟踪算法采用两种精度测试方法[9],一种是仿真得到的跟踪中心点与标定的跟踪中心点的误差值e(d),测试跟踪算法的中心点偏差,另一种是仿真得到的目标跟踪框区域与标定的跟踪框区域的重叠比例值ϕ,测试跟踪算法的尺度变化.计算表达式为

$ \left\{ {\begin{array}{*{20}{l}} {d = \sqrt {{{\left( {{x_{\rm{G}}} - {x_{\rm{O}}}} \right)}^2} + {{\left( {{y_{\rm{G}}} - {y_{\rm{O}}}} \right)}^2}} }\\ {\phi = \left( {R_{\rm{t}}^{\rm{G}} \cap R_{\rm{t}}^{\rm{O}}} \right)/\left( {R_{\rm{t}}^{\rm{G}} \cup R_{\rm{t}}^{\rm{O}}} \right)} \end{array}} \right. $ (16)

针对这两种精度测试方法,得到三个测试指标,跟踪中心点误差平均值(Centre Location Error, CLE),跟踪中心点误差小于20个像素(Distance Precision, DP)的比例值,以及跟踪框比例(Overlap Scope, OS)超过0.5的比例值.

针对跟踪对比算法不同,选用了相关算法如KCF[9]、DSST[10]、STAPLE_CA(Staple_ Context-aware Correlation Filter Tracking, STAPLE_CACFT)在OTB中简化为STAPLE_CA[14],单分类器算法如Struck[5]、CT(Compressive Tracking, CT)[17]、ASLA(Adaptive Structural Local Appearance, ASLA)[18],多分类器算法如TLD[6]、SCM(Sparse Collaborative Model, SCM)[19],以及长期跟踪算法比如LCT[7]与本文所提的复杂背景下红外跟踪算法(Complex background Infrared Tracking, CBIT)进行对比.表 1列举了10种算法的跟踪中心点误差平均值(CLE),跟踪中心点误差比例值(DP%),跟踪框比例值(OS%)以及处理帧频(Frames Per Second, FPS).表 1所示为算法测试结果,其中黑体为结果最好的算法,可以发现CBIT算法在CLE、DP%、OS%上指标相较之前的算法有很大程度提升,相较于长时间跟踪算法LCT算法取得了实质性的提升,但实时性略差于LCT算法.

表 1 算法测试结果 Table 1 Test results of the proposed algorithm

跟踪算法效果一般采用三种方式进行测试:采用首帧图像为初始目标跟踪点测试(One-Pass Evaluation, OPE);采用视频平均分为二十个节点,每个节点为初始目标跟踪点测试(Temporal Robustness Evaluation, TRE);以及采用首帧图像对中心点和尺度进行微小修改后的跟踪测试(Spatial Robustness Evaluation, SRE).为了评测跟踪算法对每个视频不同跟踪点,以及跟踪框选择的鲁棒性,通过采用OPE、TRE和SRE这三种测试进行算法跟踪效果的比对.

针对跟踪对比算法不同,选用了典型相关算法如KCF、DSST、STAPLE_CA,单分类器算法如Struck、CT、ASLA,多分类器算法如TLD、SCM,以及长期跟踪算法比如LCT与本文算法CBIT进行对比.并采用Benchmark OTB-2015的视频序列进行测试.表 1所述十种算法的OPE、TRE和SRE的测试结果如图 8图 8(a)为跟踪成功率测试结果,图 8(b)为精确度测试结果.如图 8,CBIT算法取得了61.5%的平均跟踪成功率以及76.1%平均跟踪精度,相对于最初Benchmark中最佳的STRUCK算法,跟踪成功率指标提升了13.6%,跟踪精确度指标提升了14.7%,相比LCT长期跟踪算法,跟踪成功率指标也提升了5.6%,跟踪精确度指标提升了4.1%,优于对比测试的9个算法.

图 8 10种算法的跟踪精度和跟踪成功率的测试结果 Fig.8 Success and precision test results of 10 different tracking algorithms

目标跟踪算法目前难以解决如,环境光照变化、目标旋转、目标被遮挡、目标非刚性形变、目标出视场、相似目标干扰、目标低分辨率等问题.而在复杂地面环境下的红外目标跟踪,由于背景杂波干扰和遮挡问题,本文算法主要关注目标遮挡和背景相似干扰两个因素,测试结果如图 9.

图 9 目标遮挡和背景杂波指标的TRE测试结果 Fig.9 TRE test results under the conditions of occlusion and background clutter

图 9的遮挡和背景杂波干扰两项指标的测试结果可知,CBIT算法相对于经典的长期跟踪算法LCT和背景抑制跟踪算法STAPLE_CA均取得一定程度的性能提升,证明了所提CBIT算法针对这两类问题的有效性.除了上述两项关键对比测试外,基于OTB-2015实施了其他挑战的跟踪成功率和跟踪精度的对比测试,并将OPE、TRE和SRE的测试结果进行加权平均处理,其最终结果如表 2.其中,黑体表示跟踪效果最优指标,斜体表示跟踪效果次优指标,黑斜体则表示性能指标的第三名.从表 2可以看出本文所提CBIT算法整体性能表现优异,相对于LCT算法取得了一定的性能指标提升,但在跟踪目标分辨率极低时效果相对较差,因为OTB-2015数据集为可见光图像,而CBIT算法的亮度直方图特征表征能力相对较弱,需要用实际的红外目标进行测试.同时从表 2可知,在目标脱离视野后CBIT算法表现较好,这是因为目标的再检测机制的作用.综上,所提CBIT算法能够满足红外目标稳定跟踪的要求,能实现复杂地面环境的红外目标鲁棒跟踪.

表 2 不同跟踪挑战的跟踪成功率和跟踪精度测试结果 Table 2 Tracking success rate and tracking precision test results for different tracking challenges
3.2 红外视频序列集测试

针对复杂背景下的红外目标选用前面表 2图 10中测试跟踪效果较好的KCF、DSST、LCT、STAPLE_CA 5个跟踪算法和本文的CBIT算法进行红外视频序列跟踪对比测试.

图 10 红外视频序列1跟踪结果(第1、188、395、568、797、913帧) Fig.10 Tracking results of infrared video sequence 1 (Frame numbers from top left to bottom right: 1, 188, 395, 568, 797, 913)

红外视频测试序列1有较长的帧数,目标为由远到近的运动目标,视频包含了尺度变化、相似目标干扰两种典型的跟踪难点.测试结果如图 10,所有测试的算法都能稳定地跟踪目标,在188帧出现的轻度相似目标干扰,对5种算法都没有造成漂移.在395帧后随着车速的加快,尺度变化加快,导致测试的算法尺度均出现较大的偏差,尤其KCF算法,在913帧时出现了严重的尺度漂移.

红外视频序列2为严重的目标遮挡测试视频序列(这里由于场景较远、较宽,仅截取跟踪对象附近区域),该序列可以测试目标跟踪算法的抗严重遮挡性和相似目标、背景杂波的抗干扰性.同样将本文的CBIT算法与前述的4种相关跟踪算法进行了对比,测试结果如图 11.

图 11 红外视频序列2跟踪结果(第1、212、399、441、539、561帧) Fig.11 Tracking results of infrared video sequence 2 (Frame numbers: 1, 212, 399, 441, 539, 561)

在212帧前,所有跟踪算法均实现稳定跟踪,在212帧后出现相似目标干扰,在399帧时DSST和KCF算法的跟踪框出现了轻度的移位.在441帧时,目标开始被逐渐遮挡,遮挡时长2 s,期间目标存在多个相似目标干扰.KCF、DSST、LCT、STAPLE_CA 4种相关跟踪算法在发生遮挡后,当后方出现及其相似的车辆目标时(第441、561帧),都出现了错误重捕,在第539帧时,KCF算法跟踪到短时遮挡的快速车辆,由于目标脱离视野,其跟踪框保持在桥上.本文的CBIT由于使用了多模态检测的遮挡判断策略、背景响应惩罚策略和再检测机制,当跟踪目标出遮挡后能够正确重捕目标.

4 结论

本文提出融合了再检测机制的改进相关滤波跟踪算法,利用HOG特征和亮度直方图特征的加权组合,增强特征的鲁棒性,解决相似目标干扰或轻微形变造成的模板漂移;建立目标背景区域的多峰值响应检测机制,基于检测结果实现背景区域响应的惩罚,进而减少背景杂波、轻微形变的干扰,实现目标由粗到精的定位;同时,根据检测结果建立跟踪模型学习率的自适应更新,优化模型的漂移问题;最后,通过目标的全局再检测模型,完成目标丢失后的重捕.基于OTB-2015基准数据集完成多个主流相关滤波跟踪算法的对比测试,实验结果表明,该算法实现了76.1%平均跟踪精度和61.5%的平均跟踪成功率,相较LCT算法实现了5.6%成功率和4.1%精度的提升.在定性的红外场景对比测试中,该算法明显优于其他跟踪算法,在遇到杂波干扰和严重遮挡时,可稳定跟踪红外目标.后续将进一步优化该算法,保证其实时性.

参考文献
[1]
SHI Yong, HAN Chong-zhao. Adaptive UKF method with applications to target tracking[J]. Acta Automatic Sinica, 2011, 37(6): 755-759.
石勇, 韩崇昭. 自适应UKF算法在目标跟踪中的应用[J]. 自动化学报, 2011, 37(6): 755-759.
[2]
WANG Ling-ling, XIN Yun-hong. A small IR target detection and tracking algorithm based on morphological and genetic-particle filter[J]. Acta Photonica Sinica, 2013, 42(7): 849-856.
王玲玲, 辛云宏. 基于形态学与遗传粒子滤波器的红外小目标检测与跟踪算法[J]. 光子学报, 2013, 42(7): 849-856.
[3]
QIAO Li-yong, XU Li-xin, GAO Min. Infrared target tracking using bandwidth adaptive mean shift[J]. Infrared and Laser Engineering, 2015, 44(1): 354-362.
乔立永, 徐立新, 高敏. 带宽自适应均值偏移红外目标跟踪[J]. 红外与激光工程, 2015, 44(1): 354-362. DOI:10.3969/j.issn.1007-2276.2015.01.060
[4]
BABENKO B, YANG M H, BELONGIE S. Robust object tracking with online multiple instance learning[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(8): 1619-1632. DOI:10.1109/TPAMI.2010.226
[5]
HARE S, GOLODETZ S, SAFFARI A, et al. Struck: structured output tracking with kernels[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(10): 2096-2109. DOI:10.1109/TPAMI.2015.2509974
[6]
KALAL Z, MIKOLAJCZYK K, MATAS J. Tracking-learning-detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(7): 1409-1422. DOI:10.1109/TPAMI.2011.239
[7]
MA C, YANG X, ZHANG C, et al. Long-term correlation tracking[C]. IEEE Conference on Computer Vision and Pattern Recognition, Boston: IEEE, 2015: 5388-5396.
[8]
BOLME D S, BEVERIDGE J R, DRAPER B A, et al. Visual object tracking using adaptive correlation filters[C]. IEEE Computer Society Conference on Computer Vision and Pattern Recognition, San Francisco: IEEE, 2010: 2544-2550.
[9]
HENRIQUES J F, CASEIRO R, MARTINS P, et al. High-speed tracking with kernelized correlation filters[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 37(3): 583-596.
[10]
DANELLJAN M, HAGER G, KHAN F S, et al. Discriminative scale space tracking[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 39(8): 1561-1575.
[11]
VALMADRE J, BERTINETTO L, HENRIQUES J, et al. End-to-end representation learning for correlation filter based tracking[C]. IEEE Conference on Computer Vision and Pattern Recognition, Honolulu: IEEE, 2017: 5000-5008.
[12]
NAM H, HAN B. Learning multi-domain convolutional neural networks for visual tracking[C]. IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas: IEEE, 2016: 4293-4302
[13]
HENRIQUES J F, CASEIRO R, MARTINS P, et al. Exploiting the circulant structure of tracking-by-detection with kernels[C]. European Conference on Computer Vision, Heidelberg: Springer, 2012: 702-715.
[14]
MUELLER M, SNITH N, GHANEM B. Context-aware correlation filter tracking[C]. IEEE Conference on Computer Vision and Pattern Recognition, Honolulu: IEEE, 2017: 1396-1404.
[15]
WANG M, LIU Y, HUANG Z. Large margin object tracking with circulant feature maps[C]. IEEE Conference on Computer Vision and Pattern Recognition, Honolulu: IEEE, 2017: 4021-4029.
[16]
WU Y, LIM J, YANG M H. Online object tracking: A benchmark[C]. IEEE Conference on Computer Vision and Pattern Recognition, Oregon: IEEE, 2013: 2411-2418.
[17]
ZHANG K, ZHANG L, YANG M H. Real-time compressive tracking[C]. European Conference on Computer Vision, Heidelberg: Springer, 2012: 864-877.
[18]
JIA X, LU H, YANG M H. Visual tracking via adaptive structural local sparse appearance model[C]. IEEE Conference on Computer Vision and Pattern Recognition, Rhode Island: IEEE, 2012: 1822-1829.
[19]
ZHONG W, LU H, YANG M H. Robust object tracking via sparse collaborative appearance model[J]. IEEE Transactions on Image Processing, 2014, 23(5): 2356-2368. DOI:10.1109/TIP.2014.2313227