Multiple Object Tracking: A Literature Review 翻译学习
多目标追踪:文献综述【已完成】
摘要
多目标追踪整因为其学术和商业上的潜力获得越来越多的关注。虽然已经有不同的方法来解决这个问题,但是再处理外观突变和严重的物体遮挡时仍然有着不晓得问题。在这篇文章中,我们提供了该问题最新最全面的研究成功。我们检查了最近各个方面的进展,并提出了未来研究的一些有趣的方向。在我们的认知中,这个方向暂时没有任何review。我们努力提供了一个贯彻性的关于这个方向近十年研究发展的回顾。这篇review的主要贡献在四个方面,1)在一个MOT系统中的关键方面,包括formulation,分类,关键原理,MOT的评估方式;2)我们并不是枚举不同的工作,而是根据各个方向讨论现有的方法,在每个方法中分为不同的组别,对每个组详细的讨论其原理、进度和缺点;3)我们测试了现有论文的实验、总结了流行的数据集的结果,以提供定量和全面的比较。通过分析不同观点(perspectives)的实验结果,我们验证了在这一领域的一些基本的协议;4)我们提供了MOT研究的一些问题的讨论,还有一些可能会在未来成为潜在的研究工作的有趣的方向。
关键词:多目标追踪、数据关联、调查
1. 介绍
多对象追踪(Multiple Object Tracking,MOT),或者说多目标追踪(Multiple Target Tracking,MTT)在计算机视觉的研究中扮演着重要的角色。关于MOT的课题在很大程度上被划分为定位多个对象,维护他们的身份,以及在给定输入视频的情况下定位各自的轨迹。被追踪的对象,举个例子,比如路上的行人【1,2】,路上的交通工具【3,4】,场上的运动员【5,6,7】或者成群的动物(鸟【8】,蝙蝠【9】,蚂蚁【10】,鱼【11,12,13】,细胞【14,15】,蜜蜂【16】等等)。多个“目标”也可以是单个对象的不同部分【17】,在这篇综述中,我们主要聚焦于对行人追踪的研究。关于该规定有一下三个原因。
1) 与其他环境中常见的对象相比,行人是典型的非刚性对象(*typical non-rigid objects),这使其是成为一个研究MOT问题的理想模型。
2) 行人的视频在大量实际应用中出现,这使其有有着巨大的商业潜力。
3) 在本篇综述采集到的数据中,有至少70%的MOT方向的论文是研究行人的。
作为计算机视觉研究中的中级任务,多对象追踪是包括姿态估计【18】、动作识别【19】和行为分析【20】在内的高级任务的基础。它有着众多实际应用,比如视觉健康【21】,人际互动【22】和虚拟现实【23】。这些现实需求引发了该领域大量的兴趣。与单目标追踪(SOT)相比,SOT主要关注于外观设计复杂的模型,和/或 为解决挑战性因素例如规模化挑战、面外旋转(* out-of-plane rotations)、照明变化而设计的运动模型。 MOT还需要解决两个问题:确定通常情况下会随时间变化的对象的数量,以及维护他们的身份。除了SOT和MOT共有的常规挑战之外,使得MOT变得更复杂的关键问题包括:
1) 频繁遮挡(frequent occlusions,)
2) 轨迹的初始化和终止
3) 相近物体
4) 多个对象间的互动
在过去的数十年里,围绕着解决这些问题已经提出的大量的方法。这些方集中在MOT系统的不同方面,使得MOT研究人员,特别是新手,很难全面的了解这个问题。为此,本文提供了介绍MOT各个方面研究的综述。
1.1和其他相关综述的区别
尽我们所知,在多目标追踪方面,尚未有任何综合文献描述,但是也有一些关于多目标追踪的review,这些列在了表1中。我们将这些文章分为了四类,并高亮了我们和他们的区别。
第一类【24,20,25,22,21】将追踪部分视为单个部分进行讨论,而本文将专门讨论MOT的各个方面。例如,目标追踪被描述为进行Crowed Modeling(人群建模)【24,20,25】等高级任务的一环程序。与之相近的,在【22】和【21】中,目标追踪被视为行为识别系统【22】或视觉监视系统【21】中的一部分。
第二类【26,27,28,29】致力于一般的视觉追踪技术【26,27,28】或一些特殊问题比如视觉追踪中的外观模型【29】。他们的review比我们的范围更广,而我们则更全面和专注与多目标追踪
第三类【30,30】介绍和讨论了常规视觉追踪【30】和特定的多对象追踪【31】。他们的注意力放在实验性研究而不是文献研究上。
第四类【32】回顾了近期因深度学习的崛起而出现的物体检测的进展和发展。他们的主题和我们的相关但不同。物体检测可以通过定位每帧中的潜在对象位置来为基于检测的对象跟踪提供观察,而MOT需要关联这些观察跨越多个帧以形成物体轨迹。
1.2
贡献
我们提供了计算机视觉领域首篇聚焦于MOT问题的综述,我们相信这对于帮助研究者理解其主要的挑战、陷阱和最先进的技术有着充分的帮助。这份综述主要的贡献如下
1) 我们提出了MOT问题的同意表述,这将巩固现有的MOT方法(章节2.1),以及两种不同的方法去分类MOT方法(章节2.2)。
2) 我们探讨了一个MOT系统中不同的关键组件,每一个都被更深入的划分进了不同的方面并详细探讨了其原则、进展和缺点。(章节3)
3) 我们提供了不同方法在流行数据集中的实验结果,这将使得未来的研究更为方便。通过调查提供的结果,提出了一些有趣的观察和发现。(第四章)
4) 通过总结MOT review,我们揭示了MOT研究的现有问题。并进一步的,讨论了开放性问题,确定未来潜在的研究方向。(章节5)
请注意,本工作主要贡献为回顾近期文献中MOT问题的进展。就像上文所说的一样,我们也同时介绍了与现有结果无关的公开数据上跑的结果,以提供定量了解最先进的MOT方法的途径。对于MOT的标准化基准测试,我们恳请读者参考Leal-Taix´eet al.【31】的最近的工作。.
1.3
本篇Review的组织结构
我们的目标是提供MOT任务中主要方面的概述。这些方面包括MOT的当前状态,在构建系统时所有需要抢先考虑的问题以及如何评价一个MOT系统。第二章介绍了MOT问题,包括其一般表述(章节2.1)和典型的分类方式(章节2.2)。第三章介绍了建立MOT模型过程中涉及的最常见的组件即外观模型(章节3.1),运动模型(章节3.2),交互模型(章节3.3),排除模型(章节3.4)遮挡处理(章节3.5)以及推理方法(章节3.6)。此外,有关评估的问题在第四章进行了论述,包括评估指标(章节4.1),公开数据集(章节4.2),公开代码(章节4.3)以及基准测试结果(章节4.4)。其后的第五章中,我们总结了MOT未来研究方向现有的问题和有趣的问题。
1.4
拓展
在本篇文章中,我们用小写字母表示标量变量(例如 x)和粗体小写字母表示向量变量(例如 x),我们使用粗体大写字母(例如X)表示一个矩阵或一组向量。大写字母(例如 X)用于特定的函数或变量。表2列出了整个Review中使用的符号。除了表中的符号外,可能还有一些用于特定参考的符号。由于这些符号不常用,因此它们未在表中列出,而是在上下文中定义。
2. MOT问题
首先,我们为MOT努力提供了一个通用的数学公式,接着,我们会介绍其在不同方面的可行分类。
2.1定义问题
MOT问题再以前的文献中从不同的角度进行了不同的表述,这就让人很难从更高维度的视角对该问题进行观察。这儿我们提供了一个具有普适性的方式,并认为现有的所有成果可以在该方法下得到统一。尽我们所知,以前没有任何关于此方面的尝试。
通常,MOT可以被看做一个多变量估计问题(multi-variable estimation problem)。给定一个图像队列,我们用来表示第t帧第i个对象的状态,表示第t帧中所有M个对象的状态。我们使用去表示第i个对象的顺序状态,其中分别表示目标i存在的第一帧和最后一帧,表示从第一帧到第t帧所有对象的所有顺序状态。注意,对象编号可能因为帧的不同而不同。
相应的,按照最常用的通过检测进行跟踪或基于检查的跟踪(DBT)范式(paradigm),我们利用去表示收集到的观测数据,用于表示第t帧的第i个对象,表第t帧所有的Mt个对象的观测数据,表示从第一帧到第t帧的所有对象所有收集到的顺序观测。
多目标追踪的目的是找到所有对象的“最佳”序列状态,这通常可以通过执行MAP(Maximum a pos- teriori)估计来进行模拟,该估计来自于给定所有观测的序列状态的条件分布。
先前工作中不同的MOT算法现在可以被认为是设计了不同的方法来解决上述的MAP问题,可以是概率推断角度【33,6,34,35,36,37,38,39】或者是确定性优化的角度【40,41,42,43,44,45,46,47,48,49,50,17】。
基于概率推断角度的方法通常用下述公式解决MAP问题。
(1) 采用两部迭代的方式
预测:,
更新:.
DBT,DFT?
这儿和分别是动态模型和观察模型。
基于确定优化的方法直接将似然函数作为在一组可用观察值上的代表最大化
或者反过来,最小化一个能量函数(energy function)
其中Z是一个归一化系数,以确保是一个概率分布。
2.2MOT的分类
我们很难通过一个通用标准将一个特低的MOT方法归类为不同的类别。承认这个,我们可以通过多个标准分组方法实现分类的。在下文,我们试图通过三个标准进行此操作:a)初始化方法,b)处理模式,c)输出类型。我们选择三个标准的理由是这天然的符合处理一个任务的流程,换个说法就是如何初始化一个任务,如何处理以及获得哪种类型的结果。我们相信其他的标准也可以合理的分类各类MOT方法。但是,将不同的MOT方法与所有可能的标准进行分类超出了本文的范围。在以下内容中,表示上述每个标准及其相应的分类。
2.2.1初始化方法
大多数现有的MOT作品可以分为两组[51],具体取决于对象的初始化:基于检测的跟踪(DBT)和无检测跟踪(DFT)。
基于检测的跟踪/DBT:如图1(顶部)所示,首先检测到对象,然后链接到轨迹。该策略通常也称为“跟踪临界”。给定序列,在每个帧中应用了特定于类型的对象检测或运动检测(基于背景建模)[52,53],以获得对象假设,然后进行(顺序或批次)跟踪以将检测假设链接到轨迹中。有两个问题值得注意。首先,由于对象探测器进行了事先培训,因此大多数DBT专注于特定类型的目标,例如行人,车辆或面部。其次,DBT的性能高度取决于所使用的对象检测器的性能。
无检测跟踪/DFT:如图1(底部)所示,DFT [54、55、56、57]需要在第一帧中手动初始化固定数量的对象,然后将这些对象定位在后续帧中。
DBT更受欢迎因为新对象的发现和消逝了的对象的终止会自动进行。DFT无法处理对象出现的事件。但是,它(DFT)没有预训练的对象。表3列出了DBT和DFT的主要不同。
2.2.2 处理模式
MOT也可以被分为在线跟踪和离线跟踪两种。它们的区别在于当先帧的处理有没有使用未来帧的观测结果。在线跟踪,也被称为因果跟踪方法仅依赖于当前帧的过去信息,而离线或批处理跟踪方法需要过去和将来的观察值。
在线追踪(Online Tracking)在在线跟踪[54、58、55、56、59、60]中,以逐步处理图像序列,因此在线跟踪也被称为顺序跟踪。图2(顶部)显示了一个插图,其中三个对象(不同的圆圈)a,b和c。绿色箭头代表过去的观测。结果由对象的位置及其ID表示。基于最新观察结果,即时生产轨迹。
离线追踪(Offline Tracking)离线跟踪[53,61,49,62,48,1,63,64,65,66]使用一批帧来处理数据。如图2(底部)所示,所有框架的观测值必须预先获得,并共同分析以估计最终输出。请注意,由于计算和内存限制,并非总是能够一次处理所有帧。另一种解决方案是将数据分为较短的视频剪辑,并对每批层次或顺序推断结果。表4列出了两种处理模式之间的差异。
2.2.3 输出的类型
根据输出的随机性,该标准将MOT方法分类为确定性跟踪和随机跟踪。这两种方法之间的差异主要来自第2.1节所述的优化方法。
随机跟踪(Stochastic Tracking.)随机跟踪的输出结果不时变化。例如,在无检测跟踪的情况下,如果我们使用粒子滤波进行推理,边界框的结果会变得不同。该结果的差异是粒子在加工中产生的随机性导致的差异。即使在基于检测的跟踪的情况下,一些研究也采用最新的单个对象跟踪器来完善检测边界框。这种方法还将在不同的运行时间中导致不同的跟踪结果。
确定性追踪(Deterministic Tracking.)确定性追踪的输出在多次运行方法时是统一的。例如,在逐个检测的情况下,匈牙利算法等数据关联方法将产生确定性的跟踪结果。确定性跟踪通常与得出最终输出的确定性优化有关。
2.2.4 讨论
DBT和DFT的区别在于使用了检测模型(DBT)与否(DFT)。区分在线和离线跟踪的关键是它们处理观察的方式。读者可能会质疑DFT是否与在线跟踪相同,因为DFT似乎总是顺序处理观察。在大多数情况下,尽管存在一些例外,但这是正确的。无序跟踪[67]就是一个例子。它是DFT,并以无序的方式同时处理观察结果。尽管它用于单个对象跟踪,但也可以应用于MOT,因此DFT也可以在批处理模式下应用。DBT和离线跟踪之间可能会增加另一个模糊性,因为在DBT踪迹或检测响应中通常以批量方式关联。请注意,还有一些顺序DBT,它在先前获得的轨迹和新的检测反应之间进行了关联[8,68,33]。
上面在第2.2.1、2.2.2和2.2.3节中介绍的是对MOT方法进行分类的三种可能方法,可能还有其他方法。值得注意的是,适用于运动场景[6,5],空中场景[69,46],通用物体[68,70,71,8,72]等的特定解决方案,我们建议读者参考各自的出版物。
通过提供上述三个标准,可以方便地将特定方法与分类标签的组合进行标记。这将有助于人们更轻松地理解特定方法。
3.
MOT组件
在本节中,我们会展示MOT方法的主要组件。正如刚才提到的,MOT的目的是在单个帧中发现多个对象,并在连续帧恢复身份信息,换句话说,轨迹,来自给定序列。在开发MOT方法时,应考虑两个主要问题。一种是如何测量帧中对象之间的相似性,另一个是如何根据跨帧之间的对象之间的相似性测量来恢复身份信息。粗略地说,第一个问题涉及外观,运动,相互作用,排除和遮挡的建模。第二个涉及推理问题。我们在以下内容中回顾了有关这两个项目的最新进展。
3.1外观模型
外观是MOT中亲和力计算的重要提示。但是,与单个对象跟踪不同,后者主要集中于构建复杂的外观模型以区分对象与背景,但大多数MOT方法不认为外观建模是核心组件,尽管它可能是重要的。
从技术上讲,外观模型包括两个组成部分:视觉表示和统计测量。视觉表示使用某些特征,以基于单个提示或多个提示来描述对象的视觉特性。另一方面,统计测量是不同观察值之间相似性的计算。更正式地,两个观察结果I和J之间的相似性可以写为
其中是不同观察的视觉表示,F(·,·)是衡量他们之间相似性的函数。在下文中,我们首先讨论MOT中的视觉表示,然后分别描述统计测量。
3.1.1 视觉表现
视觉表示根据不同类型的特征描述对象,如图3所示。我们将特征分组为以下不同类别。
Local features.(本地功能)KLT是一个搜索“优秀”的本地功能和跟踪的示例。它在SOT [77]和MOT中都成功采用。通过易于跟踪的功能,我们可以使用它们来生成段轨迹【65,78】,估计摄像头的运动【66,79】,运动聚类(motion clustering)【71】等。如果我们将图像像素视为最好的局部范围,光流也可以视为本地特征。一组MOT的解决方案就是利用光流将检测响应链接到数据关联之前的短轨迹【80,81】。因为它与动作是相关的,可以将它用于编码运动信息[82,83]。光流的一种特殊应用是在打包的场景中查明人群运动模式[73,37],其中普通特征是不可靠的。
Region features.(区域特征)与本地功能相比,区域特征是从更广泛的范围(例如边界框)中提取的。我们将它们分类为三种:a)zero-order类型,b)first-order类型和c)up-to-second-order类型。在这里,order是指计算表示形式时的差异顺序。例如,zero-order表示为比较像素的均值,而first-order表示计算像素之间的差异值一次
Zero-order. 这是MOT最广泛使用的表示形式。颜色直方图[65、75、81、76、36、84]和原始像素模板[85]是这种类型的两个典型示例。
First-order. 通常使用基于梯度的表示比如HOG[81、63、34、19、86]和级别公式[75]。
Up-to-second-order. 属于该集合的最新计算的区域协方差矩阵[87,88]。它已在[64,63,54]中采用。
其他. 除本地和区域功能外,还有其他一些表示类型。深度就是一个例子,它通常用于完善检测假设[75,89,90,91,92]。概率占用图(POM)[93,44]用于估计特定网格单元中物体发生的可能性。另一个例子是步态功能,它对于个人而言是独一无二的[65]。DCNN [94]在[95]中扮演类似于Bag-of-words(词库?)(bow)的代码手册的角色。在[96]中使用了色彩名ColorNames描述符用于外观表示。卷积神经网络(CNN)的深度特征在[97,98]中用于视觉表示。在[99]中,point cloud(点云)功能首次引入MOT。、
讨论. 通常,颜色直方图是一个经过深入研究的相似性度量,但它忽略了对象区域的空间布局。局部特征是有效的,但对诸如闭塞和平面外旋转等问题敏感。像HOG一样的基于梯度的特征的可以描述物体的形状,并且对某些转换(例如照明变化)具有鲁棒性,但它们无法很好地处理遮挡和变形。区域协方差矩阵功能在考虑更多信息时更加可靠,但是这个好处是以更多的计算为代价的。深度功能使亲和力的计算更加准确,但是它们需要相同风景和/或其他算法[100]的多个视图才能获得深度测量。
3.1.2. 统计测量
此步骤与上面的部分密切相关。基于视觉表示,统计度量计算两个观测值之间的亲和力。尽管有些方法仅依赖于一种线索,但其他方法则建立在多个线索之上。
Single
cue(单一线索). 使用单一线索对外观进行建模,要么将距离转化为相似性,要么直接计算亲和力。例如,通常采用归一化交叉相关(NCC)来计算两个对应物之间的亲和力,其依据是上面提到的原始像素模板的代表[85,
73, 101, 2]。说到颜色直方图,Bhattacharyya距离B (·, ·) 被用来计算两个颜色直方图之间的距离。该距离被转化为相似度S,如 [38, 65, 66, 102, 61, 33] 或像[64]那样将距离拟合到高斯分布中。差异性转化为可能性也适用于协方差矩阵的表示。[103]中使用了神经网络深度特征之间的余弦相似性。除了这些典型的模型外,基于点特征表示[35]采用了单词范围模型[104]。
多种线索. 不同种类的线索可以相互补充,使表象模型更加健全。然而,决定如何融合来自多个线索的信息并非易事。关于这一点,我们根据五种融合策略总结了基于多线索的外观模型。提升(Boosting)、级联(Concatenating)、求和(Summation)、乘积(Product)、和串联(Cascading)。
提升(Boosting).Boosting的策略通常是通过基于Boosting的算法从特征库中依次
选择一部分特征。例如,在[63]、[51]和[42]中,分别从颜色直方图、HOG和协方差 矩阵描述符中,采用AdaBoost、RealBoost和混合Boost算法来选择最具代表性的特 征,以区分同一物体的轨迹对和不同物体的轨迹。
级联(Concatenating).可以将不同类型的功能连接用于计算。在[48]中,将颜色,HOG和光流串联以进行外观建模。
求和(Summation).该策略从不同的特征中获得亲和力值,并平衡这些值与权重[75,105,106]。
乘积(Product)与上面的策略不同,值乘以产生综合亲和力[35,53,107,108]。请注意,应用此策略时通常是独立假设。
串联(Cascading)这是使用各种视觉表示形式的串联方式,以缩小搜索空间[92]或以由粗到细的方式简历外观模型 [81]。
3.2. 运动模型
运动模型抓住了物体的动态行为。它估计物体在未来帧中的潜在位置,从而减少搜索空间
。在大多数情况下,物体被假定为在世界中平滑地移动,因此在图像空间中也是如此(除了突 然的运动)。我们将在下文中讨论线性运动模型和非线性运动模型。
3.2.1. 线性运动模
这是迄今为止最流行的模型[109, 110, 34]。在这个模型中做了一个恒定速度的假设[34]。基于这个假设,有三种不同的方法来构建模型。
速度平稳性是通过强制物体在连续帧中的速度值平稳变化来建模的。在[47]中,它被 作为一个成本项来实现。
其中,在N个框架和M个轨迹/物体上进行求和。
位置平稳性直接迫使观察到的位置和估计的位置之间出现差异。让我们以[33]为例。考 虑到小轨道Ti 的尾部和小轨道Tj 的头部之间的时间差距Δt,平稳性是通过将估计位 置拟合到以观测位置为中心的高斯分布来建模的。在估计阶段,前向运动和后向运动
都要考虑。因此,考虑线性运动模型的亲和力是,
其中 "F
"和 "B "表示前向和后向。Yang等人也采用了类似的策略 [62]。观察到的位置 和测量到的位置之间的位移∆p被拟合为一个中心为零的高斯分布。这种策略的其他例
子有[63, 111, 1, 61, 7, 62]。
加速平稳性。除了考虑位置和速度的平稳性外,还考虑到了加速度[111]。一个状态的运 动的概率分布 在时间k给定的观察轨迹被建模为
其中vk 是速度,ak 是加速度,N是零均值的高斯分布。
3.2.2. 非线性运动模型
线性运动模型通常被用来解释物体的动力学。然而,有一些情况是线性运动模型所不能
处理的。为此,人们提出了非线性运动模型,以产生更准确的小轨道之间的运动亲和力。例 如,Yang等人采用了一个非线性运动模型来处理目标可能自由移动的情况[49]。在图4(a)中, 给定两个属于同一目标的轨迹T1 和T 2,线性运动模型[62]将产生一个低的概率来连接它
们。另外,采用非线性运动模型,Tracklet T1的尾巴与Tracklet
T2的头之间的缝隙可以通过轨迹合理解释, 其中s是一组支撑轨道。如图4(b)所示,T0匹配T1的尾巴和T2的头。然后,基于T0估算出桥接T1和T2的真实路径,并且T1和T2之间的亲和力的计算与第3.2.1节中所述相似。
3.3. 交互模式
交互模型,也称为相互运动模型,捕获了对象对其他对象的影响。在人群中[84], 一个对象会经历其他媒介和对象的“力”。例如,当一个行人在街上行走时 ,他会调整自己的速度、方向和目的地,以避免与他人发生碰撞。另一个例子是当一群人
走过一条街时,每个人都会跟随其他人,同时引导其他人。事实上,这些都是两个典型的 互动模型的例子,被称为社会力模型[112]和人群运动模式模型[113]。
3.3.1. 社会力量模型
社会力模型也被称为群体模型。在这些模型中,每个物体被认为是依赖于其他物体和环
境因素。这种类型的信息可以缓解拥挤场景下的性能恶化。在社会力模型中,目标被认为是基于对其他物体和环境的观察结果确定其速度,加速度和目的地的代理。更具体地说,在社会力模型中,目标的行为是基于两个方面来建模的,即个体力和群体力。
个体力 对于由多个物体组成的群体中的每个个体,要考虑两种类型的力。
忠诚,这意味着一个人不应该改变他所需的目的地
恒定,这意味着人们不应该突然改变自己的势头,包括速度和方向
群体力 对于整个组,考虑了三种类型的力:
吸引力,这意味着作为团体一起移动的个人应保持近距离
排斥力,这意味着作为一个群体一起活动的个人应该与其他人保持一定的距离,以使所有成员感到舒适
连贯性,这意味着作为群体活动的个人应该与其他人有着相似的速度
大多数现有的论文在建模社会力对物体之间的相互作用时,通常通过由反映个体力和群体力的术语最大程度的降低能量目标。表6列出了社区中采用社会力量模型进行互动建模的典范作品。而[114]是一个明确地将社会力建模为能量项的例外。在本研究中,社会
力被编码为所谓的社会特征,用于进一步处理。
3.3.2人群运动模式模型
受人群模拟文献[24]的启发,引入了运动模式来减轻追踪人群中单个物体的难度。一般 来说,这种类型的模型通常应用于目标密度相当高的过度拥挤的场景中。在这种高度拥挤的场景中,物体通
常是相当小的,而诸如外观和个体运动的线索是模糊的。在这种情况下,来自人群的运动是 一个比较可靠的问题线索。
粗略地说,有两种运动模式,结构化和非结构化的。
结构化的运动模式表现出集体的时空结构,而非结构化的运动模式表现出各种运动方式。一 般来说,运动模式是通过各种方法(包括ND张量投票【78】,Hidden Markov Models [38, 117],
Correlated Topic Model [80],有时考虑场景结构[73])学习的,并作为先验知识来帮助物体追踪。
3.4 排斥模式
排斥是在寻求MOT问题的解决方案时为避免物理碰撞而采用的一种约束条件。它产生于这 样一个事实:在现实世界中,两个不同的物体不能占据同一个物理空间。考虑到多个探测
反应和多个轨迹假设,通常有两个约束。第一个是所谓的探测级排除法[118],即同一帧中 的两个不同的探测响应不能被分配给同一个目标。第二个是所谓的轨迹级排除,即两条轨
迹不能无限接近。
3.4.1. 探测级排除法建模
采用不同的方法来建立检测级排除的模型。基本上,分为 "软 "和
"硬 "模型。
"软 "建模。探测级排除法是通过最小化成本项来惩罚违规情况的 "软 "模型。例如,在 [118]中,如果两个同时进行的检测响应被分配到相同的轨迹标签,并且它们之间有足够的距
离,就会定义一个惩罚。
为了建立排他性模型,构建了一个特殊的排他性图来捕捉约束条件[119]。鉴于所有的检 测反应,他们定义了一个图,其中节点代表检测反应。每个节点(一个检测)只与与该节点本 身同时存在的节点(其他检测)相连。在构建这个图之后,标签分配被最大化,以鼓励连接的节点具有不同的标签,就像Tr(YLY),其中L是拉普拉斯矩阵,Y=(,…)是所有| V |的标签分配图中的节点,Tr(·)是矩阵的跟踪标准。
“硬”建模. 通过应用显式约束来实现检测级排除的“硬”模型。例如,为了建立检测级排除模型,引入了所谓的不能链接,以模仿如果两个小轨道在时间跨度上有重叠,那么它们不能被分配到同一个集群,即属于同一轨迹[120]。非负离散化在[121]中的目的是将检测结果设置为不重叠的组,以遵守相互排斥的约束条件。
3.4.2 轨迹级排除模型
一般来说,轨迹级的排除是通过惩罚两个接近的检测假设具有不同的轨迹标签的情况来
建模的。这将抑制一个轨迹标签。例如,[122]中的惩罚项与具有不同轨迹标签的两个检测反 应之间的距离成反比。如果两个检测反应太近,将导致相当大的成本,或者在极限情况下,
无限的成本。[50]中也采用了类似的想法。[118]中轨迹级排除的惩罚与两个轨迹之间的空
间-时间重叠成正比。两条轨迹越接近,惩罚越高。还有一种特殊情况[45],在基于网络流
的算法中,排斥被建模为对所谓 "冲突 "边的额外约束。
3.5 遮挡处理
遮挡也许是MOT中最关键的挑战。它是导致ID切换或轨迹碎片化的主要原因。为了处理遮挡问题,人们提出了各种策略。
3.5.1. 部分到整体
这种策略建立在这样的假设上:当遮挡发生时,物体的一部分仍然是可见的。这个假设
在大多数情况下是成立的。基于这个假设,采用这种策略的方法观察并利用可见部分来推 断整个物体的状态。
流行的方法是将一个整体的物体(如一个边界框)分成几个部分,并根据各个部分计算
亲和力。如果发生了遮挡,被遮挡部分的亲和力应该很低。跟踪器会意识到这一点,只采用未被遮挡的部分用于估计。具体而言,零件是通过将物体统一地分为网格的[54]或将多个部分拟合到像人类这样的特定种类的物体来得出的,如[51]中的15个非重叠部件,以及[81,124]中从DPM检测器[123]检 测到的部件。
基于这些单独的部分,被遮挡的部分的观测被忽略了。例如,在[54]中构建了逐个部分 的外观模型。重构的误差被用来确定哪个部分被遮挡或不被遮挡。整体物体的外观模型被 选择性地更新,只更新未被遮挡的部分。这是忽略被遮挡部分的 "硬 "方法,而在[51]中有
一种 "软 "方法。具体来说,关于两个小轨道j和k的亲密度计算为,其中f是特征,i是部分的索引。权重是根据部件的闭塞关系学习的。在[81]中,对人体部分进行了关联,以
恢复部分轨迹,并进一步协助整个物体的轨迹恢复。
"部分到整体 "的策略也被应用于基于特征点聚类的跟踪中,它假定运动相似的特征点应 该属于同一个物体。只要物体的某些部分是可见的,特征点轨迹的聚类就能发挥作用[65, 71, 125]。
3.5.2. 假设和测试
该策略通过假设提案并根据目前的观察结果测试提案,从而避免了遮挡挑战。顾名思义,该策略由两个步骤组成,假设和测试。
假设. 【40】中基于闭塞的观测值生成遮挡假设,这些观测值是接近且具有相似规模的。假设OI被OJ遮住了,相应的阻塞假设是,其中pj和tj是oj的位置和时间戳,si和fi是oi的尺寸和外观特征。这种方法将遮挡视为干扰,而在其他作品中[127, 126]则采用遮挡模式来帮助遮挡情况下的检测。更具体地说,不同的检测假设是通过合成两个具有不同程度和模式的遮挡的物体产生的(见图5)。
测试. 假设准备好后将被用于MOT。让我们重新审视一下上面描述的两种方法。在[40]中,假设的观察结果和原始的观察结果一起被作为输入到成本流框架中,并进行MAP以获得最佳解决方案。在[127]和[126]中,根据检测假设训练了一个多人检测器。这种检测器大大降低了闭塞情况下的检测难度。
3.5.3. 缓冲和恢复
这个策略在遮挡发生时缓冲观察,并记住遮挡前物体的状态。当遮挡结束时,物体的状
态会根据缓冲的观察结果和遮挡前存储的状态进行恢复。
Mitzel等。 [75]当发生遮挡时,将轨迹保持活力多达15帧,并通过遮挡来推断休眠轨迹的位置。如果对象重新出现,则再次触发轨道并保持身份。这个想法在[36]中得到了实现。当跟踪状态由于闭塞而变得模糊不清时,观察模式被激活[128]。一旦获得足够的观察结果,就会产生假设来解释观察结果。这也可以被视为"缓冲和恢复"策略。
3.5.4. 其他
上面描述的策略可能不包括社区中探索的所有策略。例如,Andriyenko等人[129]将目标表示为图像空间中的高斯分布,并明确地将所有目标之间的成对闭塞率建模为可区分的能量
函数的一部分。一般来说,将各种闭塞建模的方法截然分开或归类是不可行的,在某些情况下,多种策略被结合使用。
3.6 推论
3.6.1. 概率论推理
基于概率推理的方法通常将物体的状态表示为具有不确定性的分布。追踪算法的目标是通过各种基于现有观测的概率推理方法来估计目标状态的概率分布。这类方法通常只需要现有的,即过去和现在的观测数据,因此它们特别适合于在线跟踪的任务。由于只有现有的观测值被用于估计,在对象状态序列中强加Markov(马尔可夫)属性的假设是很自然的。这个假设包括两个方面,回顾一下第2.1节中的公式。
首先,当前对象的状态只取决于以前的状态。此外,如果施加一阶马尔可夫属性,它只
取决于最后一个状态,这可以被形式化为P (St |S1:t−1 ) = P
(St |St−1 )。
其次,对物体的观察仅与与该观察结果相对应的状态有关。换句话说,观察结果是有条件独立的:P (O1:t|S1:t) = ∏t i=1 P (Oi|Si)
这两个方面分别与动态模型和观察模型有关。动态模型对应于跟踪策略,而观察模型则提供了有关对象状态的观察测量值。预测步骤是根据所有先前的观察结果估算当前状态。更具体地说,当前状态的后验概率分布是通过通过动态模型集成到最后一个对象状态的空间来估计的。更新步骤是根据观察模型下获得的测量结果更新状态的后验概率分布。
根据方程式,可以通过迭代进行预测和更新步骤来估算对象状态。但是,实际上,如果不简化假设,就不能表示对象状态分布,因此没有分析方法来计算状态分布的积分。此外,对于多个对象,状态集的数据量非常大,这使集成变得更加困难,需要用于近似解决方案的推导。
各种概率推理模型已被应用于多目标跟踪[38, 130, 107, 131],如卡尔曼滤波器[37, 39]、 扩展卡尔曼滤波器[36]、以及其他一些粒子过滤器模型[132, 133, 134, 135, 54,
105, 34, 35].
卡尔曼滤波. 在线性系统和高斯分布的对象状态下,Kalman滤波器[39]被证明是最佳估计器。它已在[37]中应用。
扩展卡尔曼滤波. 为了包括非线性情况,扩展的卡尔曼滤波器是一种可行的解决方案。它通过泰勒的扩展近似非线性系统[36]。
粒子滤波器. 基于蒙特卡洛采样的模型也已在跟踪中流行,尤其是在引入粒子滤波器[132、133、134、54、105、34、35、10]之后。该策略通过一组加权粒子对基础分布进行了建模,从而允许对分布本身进行任何假设[105、34、35、38]。
3.6.2. 确定性的优化
与概率推理方法相反,基于确定性优化的方法旨在找到MOT的最大后验(MAP)解。 为此,推断数据关联、目标状态或两者的任务,通常被投射为一个优化问题。这个框架内的方法更适合于离线跟踪的任务,因为所有帧或至少一个时间窗口的观察结果都需要提前得到。考虑到来自所有帧的观测值(通常是检测假设),这些类型的方法努力将属于相同物体
的观测值全局性地关联到一个轨迹中。关键问题是如何找到最佳的关联。下面将详细介绍一 些流行的、经过充分研究的方法。
双边图匹配. 通过将MOT问题建模为双子图匹配,两组互不相干的图节点可以是在线跟踪 中的现有轨迹和新的检测,或者是离线跟踪中的两组跟踪点。节点之间的权重被建模为轨迹和
探测之间的亲缘关系。然后,采用贪心算法的双点分配算法[124, 34, 136]或最优匈牙利算法 [61, 69, 137, 33, 41]来确定两组节点之间的匹配。
动态规划法. 扩展动态编程[138],线性编程[139,140,141],二次布尔编程[142],KSP算法 [44,19],Set Cover(集合覆盖) [143]和SubGraph Multicut [144,145,146],最大完备子图[147]来解决检测或踪迹之间的关联问题。
最小成本最大流量网络流. 网络流是一个有向图,每个边都有一定的容量。对于MOT 来说,图中的节点是检测响应或跟踪器。流量被建模为连接两个节点与否的指标。为了满足流量,一个源节点和一个汇节点对应于一个轨迹的起点和终点被添加到图中。一个轨迹对应于图中的一个流路径。从源节点到接收器节点的总流量等于轨迹的数量,而过渡
的成本是所有关联假设的负对数可能性。请注意,可以在多项式时间内获得全局最优解,比如使用推送标签算法。该模型非常受欢迎,并且已被广泛采用[40、19、101、45、43、148、149、150、151]。
条件随机场. 条件随机场模型在[62, 1, 118, 152]中被采用来处理MOT问题。定义一个图G = (V, E),其中V是节点的集合,E是边的集合,低级别的小轨道被作为输入给图。图中的每个节 点代表观察结果[118]或成对的追踪器[62],并预测一个标签以表明观察结果属于哪个轨道或是否连接追踪器。
MWIS. 最大权重独立集(MWIS)是属性图中非相邻节点的最重子集。与上述CRF模型一样,属性图中的节点代表连续帧中的小轨道对,节点的权重代表小轨道对的亲和力,如果两个小轨道共享相同的检测,则边缘相连。鉴于此图,数据关联被建模为MWIS问题[109, 48]。
3.6.3. 讨论
实践中,与概率方法相比,确定性优化或能量最小化被更普遍地采用。尽管概率方法为问
题提供了一个更直观和完整的解决方案,但它们通常很难推断。相反,能量最小化可以在合理的时间内获得一个 "足够好 "的解决方案。
3.7 总结
如上所述,我们介绍并回顾了MOT系统的不同组件。值得注意的是,并非所有现有的MOT方法都有所有的组成部分。例如,在一些研究中没有对互动进行建模。有些模型只在特定情况下才需要,例如在极其拥挤的情况下的人群运动模式。遮挡在一些现有的作品中没有得到具体处理。一般来说,外观、运动和推理在大多数方法中是必须的。让我们以最简单的情况为例,换句话说,使用单个跟踪器单独跟踪每个对象。在这个例子中没有解决相互作用,排除和遮挡。但是,通过推理模型,仍然需要外观和运动模型。
还值得注意的是,这些组件彼此之间不是正交的。通常可以将它们组合和集成以获得令人满意的性能。交互作用与有关外观、运动和排他性建模的条款一起被建模,并通过确定性技术对结果目标进行优化[85]。外观,运动和位置功能等四种功能是与[153]中的两层网络相连的连接来计算追踪器-物体的相似性。外观和运动特征由Affinity子网融合,以在[154]中实现更强大的识别能力。
4. MOT评估1.
MOT评估
对于给定的MOT方法,需要指标和数据集进行定量评估其性能。这很重要,原因有两个。一方面,必须衡量不同组件和参数对整体性能的影响以设计最佳系统。另一方面,我们希望与其他方法进行直接比较。正如我们将在本节中看到的那样,MOT的性能评估并不直接。
[155]中对于MOT方法的评估指标至关重要,因为它们提供了合理定量比较的手段。本节介绍了有关不同MOT评估指标的简要审查。由于许多MOT采用逐个检测策略的方法,他们经常测量检测性能以及跟踪性能。因此,在MOT方法中采用了用于对象检测的指标。基于此,如表7所示,可以将MOT指标分别大致分别分别为评估检测和跟踪的两组。
4.1. 度量衡
4.1.1. 检测指标
我们进一步将指标分组为两个子集。一组测量准确性,另一个衡量精确性。(???)
准确度. 常用的Recall和Precision指标以及每帧平均误报率(FAF)被用作MOT指标[1]。Choi等人[66]使用每幅图像的误报率(FPPI)来评估MOT的检测性能。一个全面的衡量标准称为多个对象检测准确性(MODA),该标准考虑了[156]中提出了误报和遗漏检测的相对数量。
精度. 多重物体检测精度(MODP)指标衡量预测检测和地面实况之间的对齐质量 [156]。
4.1.2追踪的衡量标准
追踪的指标按不同属性分为以下四个子集
准确度. 这类指标衡量的是一个算法能够多准确地追踪目标。ID切换(IDs)的度量[85] 计算了MOT算法在物体之间切换的次数。多重目标跟踪精度(MOTA)指标[157]将假阳性 39 率、假阴性率和不匹配率合并为一个数字,为整体跟踪性能给出一个相当合理的数量。尽管有一些缺点和批评,但这是迄今为止最被广泛接受的MOT的评价指标。
精确度. 三个指标,多个对象跟踪精度(MOTP)[157],追踪误差(TDE)
[38]以及OSPA [158]属于此子集。他们描述了如何通过边界框重叠和/或距离来精确跟踪对象的方法。具体而言,[158]中还考虑了基数误差和标签误差。
完整性. 完整性的指标表示对地面实况轨迹的追踪有多完全。大多数跟踪(MT),部分跟踪(PT),大多数丢失(ML)和碎片(FM)[42] 的数字都属于这一组。
稳健性. 为了评估MOT算法从闭塞中恢复的能力,在[53]中引入了称为从短期闭塞中恢复 (RS)和从长期闭塞中恢复(RL)的计量方法。
4.2. 数据集
为了与现有的各种方法进行比较并确定MOT的技术水平,采用了公开的数据集来评估 论文中提出的方法。表8给出了文献中使用的最流行的数据集,并提供了这些数据集的详细统计。
这些数据集在MOT的进展中发挥了重要作用。但是,它们有一些问题。首先,MOT数据集的比SOT的相对小,例如在线对象跟踪基准测试中使用的序列[30]和推动了SOT的快速发展和标准化评估的VOT挑战[159]中使用的序列。第二,目前的数据集集中在行人身上。这可以
归因于近年来行人检测已经取得了巨大的成功。然而,多类检测在最近几年取得了令人兴奋的 进展。我们相信在多类物体检测模块的基础上,多类多物体跟踪是可行的。因此,现在是
向MOT的多类物体数据集发展的时候了。
4.3. 公共算法
我们研究了文献和列表算法,这些算法可公开使用,以便在表9中进行进一步的比较。
与SOT相比,公共项目似乎不多。诚然,最近SOT的进展要比MOT大。其中一个原因 可能是,许多研究人员已经公开了他们的代码。我们在此鼓励研究人员公布代码,以方便他人今后的研究。
4.4. 基准结果
我们列出了上述数据集上的公开结果,以获得不同方法之间的直接比较,并为将来的比较提供方便。由于篇幅有限,我们只在表中列出了最常用的PETS2009-S2L1序列的结果。
10.补充材料中存在其他数据集的结果。请注意,由于以下几点,同一数据集上的这种直接比较可能不公平:
不同的方法。例如,某些论文属于离线方法,而另一些则属于在线方法。由于第2.2.2节中描述的差异,直接比较它们是不公平的,因为前者可以访问更多信息。
不同的检测假设。不同的方法采用各种检测器来获得检测假设。一种基于不同检测假设的方法将输出不同的结果,更不用说不同的方法了。
一些方法从多个视图中汇总观察结果,而另一些方法则从单个视图中使用了信息。这使得它们之间的直接比较很困难。
先前的信息,例如场景结构和行人的数量,通过某些方法利用,与其他不使用该信息可疑的方法进行直接定量比较。
严格来说,为了进行直接和公平的比较,需要固定所有其他组件,同时改变正在考虑的组件。例如,采用不同的数据关联模型,同时保持所有其他部分相同的情况可以直接比较不同数据关联方法的性能。这是Kitti [182]和Motchallenge [31,183]等最近基准测试的主要目标,该目标特别关注对多个对象跟踪的集中评估。有关不同MOT解决方案之间的深入实验比较,请参阅各自的基准测试。尽管存在上述问题,但由于以下原因,仍然值得在相同的数据集或序列上列出所有公共结果。
通过将所有公布的结果汇编成一个表格,它至少提供了一个直观的、在同一数据集上对不同的方法进行比较,为今后的工作提供便利。
虽然这种个别方法之间的特殊比较可能并不公平,但一个不同类型的方法之间的近似比较,如离线和在线方法之间的比较,可以告诉我们这些类型的方法在公共数据集上的表现如何。
此外,我们可以通过以下方式观察MOT的研究是如何随着时间的推移而进展的,比较不同年份的方法的性能。同时,我们使用在线和离线标签标记结果。
我们以MOTA、MOTP、IDS、精度、召回率、MT、PT、ML、FM和F1指标来报告结果。
请注意,1)有一些缺失的条目,因为我们既没有从原始论文中也没有从引用它的其他论文中找到相应的数值;2)在某些情况下,独特的论文可能会有不同的结果,例如结果差异可能是由于采用了不同的配置(如不同的检测假设)而产生的。这种差异可能是因为采用
了不同的配置(如不同的检测假说)。在这种情况下,我们引用最普遍引用的一种。
我们对PETS2009-S2L1数据集的基准结果进行了分析,以调查离线方法和在线方法之间
的比较。我们选择了2012年及以后出现的出版物中的结果,对每一种类型的方法的每个指标进行了平均,并在表11中报告了其平均值。正如预期的那样,在大多数指标方面,离线方法的表现普遍优于在线方法。这是由于离线方法采用全局时间信息进行估计。
此外,我们还分析了PETS2009-S2L1数据集随时间变化的评估结果。具体来说,我们在图 6中绘制了从2009年到2015年每一年的方法的度量值。随着时间的推移,性能的提高并不奇怪。我们猜测,更好的模型和物体检测方面的进展等因素[184, 185, 186, 187, 188, 189, 190, 191]都有助于取得进步。还应该注意的是,一个研究团体随着时间的推移专注于一个特定的数据集,某些方法可能是 "过度适应 "该数据集的结果,而不是解决该问题的一般进
展。
5.总结
本文描述了与视频中多目标跟踪(MOT)任务有关的方法和问题。作为过去十年中第一个全面的文献综述,它提出了一个统一的问题表述和现有方法的几种分类方法,描述了最先进的MOT方法中的关键部分,并讨论了MOT算法的评价,包括评价指标和公共数据集开放源码的实现,以及基准结果。尽管在过去的几十年里,MOT已经取得了很大的进展,但在目前的MOT研究中仍然存在一些问题和许多有待研究的开放问题。
5.1 现有问题
我们已经讨论了数据集(第4.2节)和公共算法(第4.3节)的现有问题。除了这些问题 ,还有一些值得注意的问题如下。
MOT研究中的一个主要问题是,MOT方法的性能在很大程度上取决于对象探测器。例如,使用广泛使用的逐探范例建立在对象检测器上,该对象检测器提供了检测假设以驱动跟踪过程。鉴于不同的检测假设,在固定其他组件时,相同的方法将产生具有显着性能差异的跟踪结果。在社区中,有时在方法中没有给出关于检测模块的描述。这使得与其他方法的比较变得不可行。像KITTI和MOTChallenge这样的既定基准试图缓解这个问题,并且也在朝着更有原则的、统一的检测和跟踪评估的方向发展(参见MOT17)。
另一个麻烦是,当开发一个MOT解决方案时,如果这个算法太复杂,就会有很多参数。这导致了调整方法的困难。同时,其他人也很难实施这种方法并复制其结果。一些方法在特定的视频序列中表现良好。然而,当应用于其他情况时,它们可能不会产生令人满意的结果。其原因是多方面的。摄像机视角的不同,或者摄像机的状态(移动与静止)都会导致这个问题。这也可能是由于MOT方法使用的对象探测器在特定视频中训练,并且在其他视频序列中概括而引起的。
所有这些问题都限制了MOT研究及其在实际系统中的应用。最近,人们已经在尝试处理其中一些问题,例如,MOT基准[183]提供了大量注释的测试视频序列,统一检测假设,标准评估工具等。这很可能会进一步推进MOT技术的研究和发展。
5.2未来的方向
即使经过几十年对MOT问题的研究,在研究这个问题上仍然有许多研究机会。这里我们想指出一些比较普遍的问题,并提供可能的研究方向。
具有视频适应性的MOT. 如上所述,当前的大多数MOT方法都需要脱机训练的对象检测器。出现一个问题,即特定视频的检测结果不是最佳的,因为未针对给定视频训练对象检测器。这通常会限制多个对象跟踪的性能。对象检测器的自定义对于提高MOT性能是必要的。 Shu等人[192]提出的一种解决方案通过逐步完善通用行人探测器,将通用的行人检测器调整为特定视频。这是研究以改善MOT方法的预处理阶段的一个重要方向。
多相机下的MOT. 很明显,MOT将受益于多相机设置[193,194]。多个摄像头有两种配置。第一个是多个摄像机记录相同的场景,即多个视图。但是,在这种情况下,一个关键问题是如何融合多个摄像机的信息。第二个是每个摄像机都会记录一个不同的场景,即非重叠的多摄像头网络。在这种情况下,跨多个相机的数据关联成为重新识别问题。
多重三维物体追踪. 当前的大多数方法都集中在2D中的多个对象跟踪上,即在图像平面上,即使在多个摄像机的情况下也是如此。 3D跟踪[195]可以为高级计算机视觉任务提供更准确的位置,尺寸估计和有效的闭塞处理,这可能更有用。但是,3D跟踪需要相机校准,或者必须克服其他挑战以估计相机姿势和场景布局。同时,3D模型设计是2D MOT独有的另一个问题。
MOT与场景理解. 先前的研究[37,196,197]已经进行了分析高峰时段的人满为患的场景,例如地下火车站的高峰时段和公共场所的示威活动。在这种情况下,大多数对象很小,并且在很大程度上被遮挡,因此很难跟踪。场景理解的分析结果可以提供上下文信息和场景结构,如果将其更好地纳入MOT算法,这对跟踪问题非常有帮助。
MOT与深度学习. 基于深度学习的模型已成为一个非常有力的框架,用于处理各种视觉问题,包括图像分类[198],对象检测[186,187,188]和更相关的单个对象跟踪[184]。对于MOT问题,深度学习模型为目标检测提供的强大观察模型可以显着提高跟踪性能[199,200]。使用深神经网络[201,202,203,204]对目标关联问题的制定和建模需要更多的研究工作,尽管最近已经进行了在线MOT进行顺序神经网络的首次尝试。研究人员还采用了诸如注意机制[205],LSTM [114,97]等模块来解决MOT问题。
MOT与其他计算机视觉任务. 尽管多个对象跟踪服务于其他高级计算机视觉任务,但有一种趋势可以通过其他计算机视觉任务共同解决多目标跟踪,因为它们彼此有益。可能的组合包括对象分割[206、207、208、209],重新识别[210、194、211],人姿势估计[18、212、213、214、215]和动作识别[19]。
除上述未来方向外,由于当前的研究主要集中于在监视情况下跟踪多个人类,因此当前的研究扩展到其他类型的目标(例如,车辆,动物等)和场景(例如,车辆,动物等)(例如,交通场景,航空照片等)也是非常好的研究方向,因为在不同场景下跟踪不同类型的目标的问题设置和困难有时与在监视场景中跟踪多个人类的目标有很大不同。