app开发者平台在数字化时代的重要性与发展趋势解析
680
2022-08-30
(ECCV-2022)GaitEdge:超越普通的端到端步态识别,提高实用性(续)
5 Experiment
5.1 Settings
数据集。有一些可用的步态识别数据集,例如,CASIAB [26]、OUMVLP [21]、Outdoor-Gait [20]、FVG [30]、GREW [32] 等。但是,并非所有数据集都是对于基于端到端的步态识别方法很有用。例如,提出的工作不能应用两个世界上最大的步态数据集 OUMVLP [21] 和 GREW [32],因为它们都没有提供 RGB 视频。简而言之,我们理想的步态数据集拥有几个重要属性:可用的 RGB 视频、丰富的相机视角和多种步行条件。
CASIA-B [26] 似乎是一个不错的选择。尽管如此,仍然需要另一个类似的数据集来适应我们的跨域设置。因此,我们收集了一个名为万步态 200 (TTG-200) 的私有数据集,并将其统计数据显示在表 1 中。
表 1. 现有步态数据集和我们收集的 TTG-200 的统计数据
TTG-200。该数据集包含 200 个在野外行走的受试者,每个受试者需要在 6 种不同的条件下行走,即携带、衣服、接电话等。对于每个行走过程,受试者将被位于不同视角(未标记)周围的 12 个摄像头捕获,这意味着每个受试者理想地拥有 6 × 12 = 72 个步态序列。在接下来的实验中,我们将前 120 个受试者用于训练,最后 80 个受试者进行测试。另外,第一个序列(#1)被认为是gallery集,剩下的5个序列(#2-6)被认为是probe集。
如图 5 所示,与 CASIA-B 相比,TTG-200 主要有以下三个区别:(1)TTG-200 的背景更加复杂多样(采集于多个不同的户外场景中); (2)TTG-200数据多为鸟瞰图,CASIA-B数据多为水平图; (3) TTG200 具有更好的图像质量。因此,我们可以将这两个数据集视为不同的域。
图 5. CASIA-B 和 TTG-200 示例。左侧(CASIA-B)由一个序列的六个视角组成。右边(TTG-200)由六个不同视角的受试者组成
实验细节 数据预处理。我们首先使用 ByteTrack [27] 从 CASIA-B [26] 和 TTG-200 的原始 RGB 视频中检测和跟踪行人,然后进行行人分割和轮廓对齐 [9] 以提取步态序列。获得的轮廓被调整为 64 × 44,可以作为这些两阶段步态识别方法的输入,也可以作为这些端到端方法中行人分割网络的ground-truth。
步态识别。我们使用最新的 GaitGL [16] 作为我们的识别网络,并严格遵循原始论文的设置。
5.2 Performance Comparison
为了展示 GaitEdge 可靠的跨域能力,我们对 CASIA-B* 和 TTG-200 进行了单域和跨域评估,如表 2 所示。
表2. CASIA-B和TTG-200的rank-1准确性(%)。不包括CASIA-B中的相同视角的情况。粗体和(黑体)数字分别代表单域和跨域的两个最高准确率
单域评价。从表2的对角线结果中,我们观察到,传统的两步步态识别方法的性能远远不如两个端到端的方法。例如,GaitGL-E2E在CASIA-B和TTG-200上分别超过GaitSet[4]11.66%和12.75%。另一方面,我们提出的GaitEdge的准确度略低于GaitGL-E2E,即对CASIA-B来说是-2.13%,对TTG-200来说是-1.71%。然而,我们认为GaitGL-E2E在步态不相关的噪声中拥有较高的过拟合风险,因为它直接将分割网络产生的浮动掩码作为识别网络的输入。因此,我们进一步进行了跨域评估,以支持这一概念的实验。
跨域评估。如果一些不相关的噪音主导了用于人体识别的步态表征,即纹理和颜色,那么在跨域设置的情况下,识别精度会急剧下降,因为提取的特征无力地代表了相对稳健的步态模式。表2中的反对角线结果显示,由于CASIA-B和TTG-200之间的明显差异,所有这些方法与单域相比都有明显的性能下降。我们注意到,尽管GaitGL-E2E在单域中具有最高的准确性,但它在从CASIA-B到TTG-200的跨域中取得了最差的性能。相比之下,我们的GaitEdge在跨域评估中达到了比其他公布的方法最好的性能,尽管它比GaitGL-E2E在单域中低2%左右。
因此,这一跨域评估不仅表明GaitEdge的鲁棒性远远优于GaitGL-E2E,而且还表明GaitEdge是一个用于端到端步态识别任务的实用而先进的框架。
与其他端到端方法的比较。最后但并非最不重要的是,提出的GaitEdge与以前的三种端到端步态识别方法在CASIA-B*的不同视图上进行了比较。表3显示,GaitEdge在各种行走条件下几乎达到了最高的准确率,尤其是CL(比MvModelGait+5.7%),这表明GaitEdge对颜色和纹理(大衣的变化)具有明显的鲁棒性。
表 3. CASIA-B* 在不同视图上的 rank-1 准确度 (%),不包括相同视角的情况。评估时,将前 4 个序列(NM#01-04)视为gallery集,而将左侧 6 个序列分为 3 个probe集,即 NM#05-06、BG#01-02、CL#01 -02。 Song GaitNet [20] 的原始论文没有提到 BG 和 CL 的结果
5.3 Ablation Study
边缘的影响。表 4 显示了身体边缘尺寸的影响。我们通过几种尺寸的结构元素提取边缘——结构元素越大,边缘区域越大。根据表4的结果,随着结构元素尺寸的增加,单域的性能相应提高,但跨域的性能几乎同时下降。该结果表明,占据中间合成轮廓的浮动蒙版区域与 GaitEdge 的跨域性能呈负相关。因此,我们可以说 GaitGLE2E 在跨域评估中失败的原因是它在无限制结构元素的情况下等效于 GaitEdge。此外,轮廓的那些非边缘区域,即人体和背景,不适用于端到端步态识别框架的浮点编码。
表 4 结构元素尺寸的消融研究。较大的边缘区域的尺寸越大。粗体和(粗体)数字分别表示单域和跨域的最高精度
GaitAlign 的影响。值得注意的是,我们观察到自然场景中行人检测(上游任务)的结果通常比受控环境(即 CASIA-B* 和 TTG-200)差得多。为了模拟这种复杂情况,我们首先对 CASIA-B* 的视频应用目标检测,然后以 0.5 的概率执行随机像素偏移以及垂直和水平坐标。如图6(a)所示,底部图像受到干扰,旨在模拟自然情况。图 6 (b) 显示对齐显著提高了平均精度。此外,我们还注意到正常行走 (NM) 的准确率略有下降,即 -0.38%。但是,我们认为这是因为 NM 的准确度正在接近上限。
图 6. (a) 原始图像(上)与受干扰的图像(下)。我们对被干扰的图像进行随机像素偏移,包括垂直和水平方向。(b) GaitAlign 模块的消融研究。干扰后的结果在 CASIAB* 上报告
5.4 Visualization
为了更好地理解 GaitGL-E2E 的性能下降和 GaitEdge 的有效性,我们分别说明了 GaitGLE2E 和 GaitEdge 生成的中间结果以及同一帧对应的 ground truth,如图 7 所示。具体来说,对于 GaitGL- E2E,(a)、(b)、(c)和(d)中的中间结果捕获了更多的背景和纹理信息,并且一些身体部位被消除了,例如(e)和(f)中的腿。而对于 GaitEdge,中间结果更加稳定和合理,使其更加稳健。
图 7. 中间结果与 ground truth 的比较,即前两行 vs.第三行
6 Conclusion
本文提出了一种新颖的端到端步态识别框架,称为 GaitEdge,可以解决跨域情况下的性能下降问题。具体来说,我们设计了一个步态合成模块,用通过形态学操作获得的可调边缘来掩盖固定体。此外,提出了一种名为 GaitAlign 的可微对齐模块来解决上游行人检测任务引起的身体位置抖动。我们还对两个数据集进行了广泛而全面的实验,包括 CASIA-B* 和我们新建的 TTG-200。实验结果表明,GaitEdge 明显优于之前的方法,表明 GaitEdge 是一种更实用的端到端范式,可以有效阻挡 RGB 噪声。此外,这项工作暴露了以往研究忽视的跨领域问题,为未来的研究提供了新的视角。
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。
发表评论
暂时没有评论,来抢沙发吧~