一些时序建模策略(一)

网友投稿 582 2022-10-12

一些时序建模策略(一)

一些时序建模策略(一)

Temporal Kernel Selection Block

paper题目:BiCnet-TKS: Learning Efficient Spatial-Temporal Representation for Video Person Re-Identificationpaper是中科院发表在CVPR 2022的工作paper地址:​​链接​​Code:​​链接​​ 在 [30, 42] 之后,我们将视频网络分解为分别处理空间线索和时间关系。利用高效的 BiCnet 充分挖掘空间线索,我们构建了一个 Temporal Kernel Selection 块来联合建模短期和长期时间关系。由于不同尺度的时间关系对于不同的序列具有不同的重要性(如图 2 所示),TKS 以动态方式组合多尺度时间关系,即根据输入序列为不同的时间尺度分配不同的权重。

图 2:短期和长期的时间关系对于不同的序列具有不同的重要性。 (a) 部分遮挡的序列。需要长期的时间线索来减轻遮挡。 (b) 快速移动的行人序列。需要短期时间线索来模拟详细的运动模式。

值得指出的是,与使用尺度权重提供粗融合相比,我们选择使用通道权重(等式 7)进行融合。这种设计产生了更细粒度的融合,可以调整每个特征通道。此外,权重是根据输入视频动态计算的。这对于不同序列可能具有不同主导时间尺度的 reID 至关重要。

TEMPORAL-WISE DYNAMIC NETWORKS

paper题目:Dynamic Neural Networks: A Surveypaper是清华发表在TPAMI 2021的工作paper链接:​​地址​​

通常,可以通过在不重要的时间位置为输入动态分配较少的计算/不计算来提高网络效率。

Temporal-wise Dynamic Video Recognition

对于视频识别,视频可以被视为帧的顺序输入,时间动态网络旨在为不同的帧分配自适应计算资源。这通常可以通过两种方法来实现:1)在循环模型的每个时间步中动态更新隐藏状态,以及 2)对关键帧执行自适应预采样(第 4.2.2 节)。

4.2.1 Video Recognition with Dynamic RNNs

视频识别通常通过循环过程进行,其中视频帧首先由 2D CNN 编码,然后将获得的帧特征依次馈送到 RNN 以更新其隐藏状态。基于RNN的自适应视频识别通常通过以下方式实现:1)用相对便宜的计算处理不重要的帧(“glimpse”)[177],[178]; 2)提前退出[61],[62]; 3)执行动态跳跃来决定“where to see”[61]、[179]、[180]、[181]。

隐藏状态的动态更新。为了减少每个时间步的冗余计算,LiteEval [177] 在两个具有不同计算成本的 LSTM 之间做出选择。 ActionSpotter [178] 根据每个输入帧决定是否更新隐藏状态。 AdaFuse [182] 选择性地重用上一步中的某些特征通道,以有效地利用历史信息。最近的工作还提出在处理顺序输入帧时自适应地决定数值精度[183]或模态[184]、[185]。暂时提前退出。人类能够在观看整个视频之前轻松理解内容。这种提前停止也在动态网络中实现,仅基于视频帧的一部分进行预测 [61]、[62]、[186]。与时间维度一起,[62] 中的模型进一步实现了从网络深度方面的早期退出。跳过视频。考虑到使用 CNN 对那些不重要的帧进行编码仍然需要大量计算,更有效的解决方案可能是动态跳过某些帧而不观看它们。现有技术 [179]、[180]、[187] 通常学习预测网络在每个时间步应跳转到的位置。此外,在 [61] 中允许提前停止和动态跳跃,其中跳跃步幅被限制在离散范围内。自适应帧 (AdaFrame) [181] 生成 [0, 1] 范围内的连续标量作为相对地点。

4.2.2 Dynamic Key Frame Sampling

首先执行自适应预采样过程,然后通过处理选定的关键帧或剪辑子集进行预测。

时间注意力是网络关注显著帧的常用技术。对于人脸识别,神经聚合网络 [22] 使用软注意力来自适应聚合帧特征。为了提高推理效率,实现了硬注意力以使用 RL 迭代地删除不重要的帧,以进行有效的视频人脸验证 [188]。采样模块也是动态选择视频中的关键帧/剪辑的流行选项。例如,首先在 [189]、[190] 中对帧进行均匀采样,然后对每个选定的帧做出离散决策以逐步前进或后退。至于剪辑级别的采样,SCSample [191] 是基于经过训练的分类器设计的,以找到信息量最大的剪辑进行预测。此外,动态采样网络 (DSN) [192] 将每个视频分割成多个部分,并利用跨部分共享权重的采样模块从每个部分中采样一个剪辑。

Temporal Deformable Convolutional Encoder

paper题目:Temporal Deformable Convolutional Encoder-Decoder Networks for Video Captioningpaper是中山大学发表在AAAI 2019的工作paper地址:​​链接​​

编码器是将源序列(即视频的帧/剪辑序列)作为输入并产生中间状态以对语义内容进行编码的模块。在这里,我们在 TDConvED 的编码器中设计了一个时间可变形卷积块,它在输入序列上应用时间可变形卷积,以捕获以自由形式时间变形采样的帧/剪辑的上下文,如图 3 (a) 所示。这种时间可变形卷积的设计通过在视频中的动作/场景的自然基础上捕捉时间动态来改进传统的时间卷积。同时,编码器中的前馈卷积结构可以实现输入序列内的并行化,并允许快速计算。此外,为了在编码阶段利用输入序列之间的长期依赖关系,在编码器中堆叠多个时间可变形卷积块,以整合来自输入序列中大量时间采样的上下文信息。

图 3:(a) 编码器中的时间可变形卷积块、(b) 解码器中的移位卷积块和 © 时间可变形卷积的图示。

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:Spring Boot 集成JWT实现前后端认证的示例代码
下一篇:swoft - 基于 Swoole 原生协程,新时代PHP高性能协程框架(swoft 禁用超全局变量如何解决)
相关文章

 发表评论

暂时没有评论,来抢沙发吧~