行为识别 - TDN: Temporal Difference Networks for Efficient Action Recognition - 代码天地

行为识别 - TDN: Temporal Difference Networks for Efficient Action Recognition

其他 2021-03-18 18:51:30 阅读次数: 0

文章目录

0. 前言

相关资料：
- arxiv
- github：还没有开源
- 论文解读
论文基本信息
- 领域：行为识别
- 作者单位：南京大学
- 发表时间：2020.12
一句话总结：使用RGB difference设计了新的特征提取结构。

1. 要解决什么问题

探索高效的temporal modeling方式。
常见的 temporal modeling 方式有两种
- 使用双流法，RGB用来提取appearance information，optical flow用来提取movement information。
  - 这种方法能够很有效地提高识别精度，但需要的大量算力来计算光流。
- 3D模型，或 temporal convolutions，隐性地学习motion fetures。
  - 没有单独考虑temporal dimension相关内容，也需要非常多算力。
之前，也有方法使用RGB difference作为输入，作为光流的替代品。
- 但之前的方法都是简单的把RGB作为另一个输入，最终在结果端进行融合。

2. 用了什么方法

提出了Temporal Difference Network(TDN)，来提取多尺寸的时间信息（multi-scale temporal information）。
- 使用了TSN的结构，sparse and holistic sampling strategy，即1x1x8这种形式
- 主要就是引入了TDM结构，包括short-term和long-term两种。
- short-term TDM的作用是提供更多frame-wise representation
  - 第一个参数是最终结果，第二个参数是普通2D CNN结果特征图，第三个参数中函数是S-TDM的结构，输入为图片
- long-term TDM的作用平衡segments之间的结构，从而提升每一帧的表达能力
  - 最后一个函数是L-TDM结构，这里的F应该是上面S-TDM的结果。
  - 当前模型只考虑相邻两帧之间的关系，即L-TDM只是存在于相邻两帧之间。
TDN的关键在于引入了 temporal difference based module(TDM)
S-TDM
- 作者认为：
  - 在一个很小的local temporal window中相邻的帧都非常类似，直接叠加这些信息并提取特征是不明智的。
  - 另一方面，从segment中提取信息虽然能够有效提取appearance信息，但不能提取local motion信息。
  - 所以，需要使用S-TDM以及相邻帧temporal difference来增强信息。
- 整体结构如上图，感觉使用了选中图片以及选中图片周边一共5帧，来提取diff信息并叠加。
- 总而言之，是提取一个segment内的local motion以及appearance信息。
L-TDM
- 总而言之，是提取segment之间的信息。

3. 效果如何

做了详细的消融实验，证明提出结构的有效。
- 说白了，就是尝试了很多种S-TDM和L-TDM的实现方法，选择了最好的发表。
在SomethingSomething上达到SOTA。在Kinetcis-400上达到差不多SOTA的效果。

4. 还存在什么问题&可借鉴之处

等待开源，不知道真实跑起来效率如何。
- 比如，x3d，看起来厉害，但不知道部署起来效果如何。
看起来是很诱人了。
但从原理上看起来，在online任务中作用可能不会太大……
- 至少，对我的跌倒检测，S-TDM并没有太好的结果。

猜你喜欢

转载自blog.csdn.net/irving512/article/details/111488943

行为识别 - TDN: Temporal Difference Networks for Efficient Action Recognition

视频行为识别阅读[2]Temporal Segment Networks: Towards Good Practices for Deep Action Recognition[2016]

Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition

Action Recognition(行为识别)

行为识别(Action Recognition)初探

论文阅读笔记: 2016 ECCV Temporal Segment Networks: Towards Good Practices for Deep Action Recognition

【论文阅读】Human Action Recognition using Factorized Spatio-Temporal Convolutional Networks

【论文阅读】Learning Spatio-Temporal Features with 3D Residual Networks for Action Recognition

翻译：Spatial Temporal Graph Convolutional Networks for Skeleton Based Action Recognition （ST-GCN）

论文翻译：Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition

【视频理解】TSN Temporal Segment Networks: Towards Good Practices for Deep Action Recognition 笔记

论文学习：（TSN）Temporal segment networks: Towards good practices for deep action recognition

Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition学习

【论文阅读】Temporal Segment Networks: Towards Good Practices for Deep Action Recognition

双流网络行为识别-Spatiotemporal Residual Networks for Video Action Recognition-论文阅读

【视频行为识别5】(双流网络)Two-stream Convolution Networks for Action Recognition in Videos(2014)

论文翻译：Semantics-Guided Neural Networks for Efficient Skeleton-Based Human Action Recognition

Semantics-Guided Neural Networks for Efficient Skeleton-Based Human Action Recognition 论文阅读

行为识别(action recognition)相关资料

视频人员行为识别（Action Recognition）

行为识别Action Recognition 数据集介绍

SSN：Temporal Action Detection with Structured Segment Networks

行为识别 - ACTION-Net: Multipath Excitation for Action Recognition

[行为识别论文详解]TSN(Temporal Segment Networks)

【视频行为识别2】3D Convolutional Neural Networks for Human Action Recognition(2010年)3D卷积神经网络在人体动作识别中的应用

Pixel Difference Networks for Efficient Edge Detection论文笔记

[骨架动作识别]STA-LSTM: Spatio-Temporal Attention Model for Human Action Recognition from Skeleton Data

Learning hierarchical spatio-temporal features for action recognition with ISA

TAN: Temporal Aggregation Network for Dense Multi-label Action Recognition

TEA: Temporal Excitation and Aggregation for Action Recognition阅读笔记

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)