一些时序建模策略(一)-FinClip官网

一些时序建模策略(一)

网友投稿 554 2022-10-12

一些时序建模策略(一)

Temporal Kernel Selection Block

paper题目：BiCnet-TKS: Learning Efficient Spatial-Temporal Representation for Video Person Re-Identificationpaper是中科院发表在CVPR 2022的工作paper地址：链接Code:链接在 [30, 42] 之后，我们将视频网络分解为分别处理空间线索和时间关系。利用高效的 BiCnet 充分挖掘空间线索，我们构建了一个 Temporal Kernel Selection 块来联合建模短期和长期时间关系。由于不同尺度的时间关系对于不同的序列具有不同的重要性（如图 2 所示），TKS 以动态方式组合多尺度时间关系，即根据输入序列为不同的时间尺度分配不同的权重。

图 2：短期和长期的时间关系对于不同的序列具有不同的重要性。 (a) 部分遮挡的序列。需要长期的时间线索来减轻遮挡。 (b) 快速移动的行人序列。需要短期时间线索来模拟详细的运动模式。

值得指出的是，与使用尺度权重提供粗融合相比，我们选择使用通道权重（等式 7）进行融合。这种设计产生了更细粒度的融合，可以调整每个特征通道。此外，权重是根据输入视频动态计算的。这对于不同序列可能具有不同主导时间尺度的 reID 至关重要。

TEMPORAL-WISE DYNAMIC NETWORKS

paper题目：Dynamic Neural Networks: A Surveypaper是清华发表在TPAMI 2021的工作paper链接：地址

通常，可以通过在不重要的时间位置为输入动态分配较少的计算/不计算来提高网络效率。

Temporal-wise Dynamic Video Recognition

对于视频识别，视频可以被视为帧的顺序输入，时间动态网络旨在为不同的帧分配自适应计算资源。这通常可以通过两种方法来实现：1）在循环模型的每个时间步中动态更新隐藏状态，以及 2）对关键帧执行自适应预采样（第 4.2.2 节）。

4.2.1 Video Recognition with Dynamic RNNs

视频识别通常通过循环过程进行，其中视频帧首先由 2D CNN 编码，然后将获得的帧特征依次馈送到 RNN 以更新其隐藏状态。基于RNN的自适应视频识别通常通过以下方式实现：1）用相对便宜的计算处理不重要的帧（“glimpse”）[177]，[178]； 2）提前退出[61]，[62]； 3）执行动态跳跃来决定“where to see”[61]、[179]、[180]、[181]。

隐藏状态的动态更新。为了减少每个时间步的冗余计算，LiteEval [177] 在两个具有不同计算成本的 LSTM 之间做出选择。 ActionSpotter [178] 根据每个输入帧决定是否更新隐藏状态。 AdaFuse [182] 选择性地重用上一步中的某些特征通道，以有效地利用历史信息。最近的工作还提出在处理顺序输入帧时自适应地决定数值精度[183]或模态[184]、[185]。暂时提前退出。人类能够在观看整个视频之前轻松理解内容。这种提前停止也在动态网络中实现，仅基于视频帧的一部分进行预测 [61]、[62]、[186]。与时间维度一起，[62] 中的模型进一步实现了从网络深度方面的早期退出。跳过视频。考虑到使用 CNN 对那些不重要的帧进行编码仍然需要大量计算，更有效的解决方案可能是动态跳过某些帧而不观看它们。现有技术 [179]、[180]、[187] 通常学习预测网络在每个时间步应跳转到的位置。此外，在 [61] 中允许提前停止和动态跳跃，其中跳跃步幅被限制在离散范围内。自适应帧 (AdaFrame) [181] 生成 [0, 1] 范围内的连续标量作为相对地点。

4.2.2 Dynamic Key Frame Sampling

首先执行自适应预采样过程，然后通过处理选定的关键帧或剪辑子集进行预测。

时间注意力是网络关注显著帧的常用技术。对于人脸识别，神经聚合网络 [22] 使用软注意力来自适应聚合帧特征。为了提高推理效率，实现了硬注意力以使用 RL 迭代地删除不重要的帧，以进行有效的视频人脸验证 [188]。采样模块也是动态选择视频中的关键帧/剪辑的流行选项。例如，首先在 [189]、[190] 中对帧进行均匀采样，然后对每个选定的帧做出离散决策以逐步前进或后退。至于剪辑级别的采样，SCSample [191] 是基于经过训练的分类器设计的，以找到信息量最大的剪辑进行预测。此外，动态采样网络 (DSN) [192] 将每个视频分割成多个部分，并利用跨部分共享权重的采样模块从每个部分中采样一个剪辑。

Temporal Deformable Convolutional Encoder

paper题目：Temporal Deformable Convolutional Encoder-Decoder Networks for Video Captioningpaper是中山大学发表在AAAI 2019的工作paper地址：链接

编码器是将源序列（即视频的帧/剪辑序列）作为输入并产生中间状态以对语义内容进行编码的模块。在这里，我们在 TDConvED 的编码器中设计了一个时间可变形卷积块，它在输入序列上应用时间可变形卷积，以捕获以自由形式时间变形采样的帧/剪辑的上下文，如图 3 (a) 所示。这种时间可变形卷积的设计通过在视频中的动作/场景的自然基础上捕捉时间动态来改进传统的时间卷积。同时，编码器中的前馈卷积结构可以实现输入序列内的并行化，并允许快速计算。此外，为了在编码阶段利用输入序列之间的长期依赖关系，在编码器中堆叠多个时间可变形卷积块，以整合来自输入序列中大量时间采样的上下文信息。

Canvas 在直播中实现点赞冒气泡效果的方法解析

554 2022-10-12

一些时序建模策略(一)

Canvas 在直播中实现点赞冒气泡效果的方法解析

中央发布重磅文件：自主可信计算、人工智能领域市场准入迎大动作！

微信禁止下拉查看 URL 的处理方法详细解析

最近发表

更多内容

小程序SDK

Finclip技术文档

小程序开发

小程序容器

小程序框架

Finclip小程序平台

Finclip用户投稿

车联网

推荐文章

小程序SDK是什么意思？小程序sdk和插件有什么区别？

小程序支付功能怎么实现？

企业app开发流程是什么？

app运营模式有哪些？

小程序多端引流怎么做？

小程序生态分析的机会和威胁

Flutter入门这一篇效率文章就够了

原生与跨平台解决方案分析,跨平台软件开发技术方案

热更新技术：让软件更新变得更加轻松快速

解决方案

银行解决方案

证券解决方案

互联网解决方案

政企OA解决方案

科技解决方案

loT解决方案

信任解决方案

热评文章

AppCan:基于混合模式的移动应用开发,移动混合模

Hybrid App混合模式开发的了解

小程序容器技术助力券商数字营销突围，小程序容器化的意

用mpvue开发微信小程序基础知识（vue.js开发

小程序多端框架全面测评对比，强烈推荐！

券商app架构 - 解析券商应用程序的构建与设计