【论文阅读】Learning Spatio-Temporal Features with 3D Residual Networks for Action Recognition

其他 2019-01-09 09:20:59 阅读次数: 0

【论文阅读】Learning Spatio-Temporal Features with 3D Residual Networks for Action Recognition

这是2017ICCV workshop的一篇文章，这篇文章只是提出了一个3D-ResNets网络，与之前介绍的一篇文章链接地址非常非常相似，在结构上只有一点点不同，既然如此，那么我为什么还要介绍这一篇文章呢，因为本文最大的贡献就是它的github代码。这篇文章的代码算是我的启蒙代码，写得非常地整洁规范，所以我极力推荐大家下载下来看一看。

论文地址：下载链接
原文github地址：下载链接

正文

本文提出了3D-ResNets网络，该网络基于2DResNets网络而来，虽然文章只实验了18层和34层的网络，但是在它的github中提供了各种深度的网络。它的github中提供了效果很好的用于时空特征提取的在kinetics上预训练了的模型，建议大家可以star一下。

3D-ResNets网络结构

文章提出的3D-ResNets网络结构如下表所示：
在这里插入图片描述
可以看到该网络结构真的与之前介绍的一篇非常相似，这里就不再多赘述了。网络的输入为16x112x112。

训练细节

训练的时候：优化算法为动量随机梯度下降法，学习率初始化为0.1，当验证集的准确率连续下降3次时学习率乘以0.1,动量为0.9，weight decay为0.001，batch size为256。测试的时候，视频被分成若干不重叠的16帧的视频段，结果为所有视频段的结果的平均。输入的16帧视频是从原视频中均匀采样得到的，使用了数据增强的方法，包括：

在5个不同的尺度下进行空间裁剪，尺度设置为 $\left \{ 1,\frac{1}{2^{\frac{1}{4}}},\frac{1}{\sqrt{2}},\frac{1}{2^{\frac{3}{4}}},\frac{1}{2} \right \}$
空间裁剪时在视频帧的4个角和中心处的进行空间裁剪
水平随机翻转

实验结果

文章使用3D-ResNets和C3D分别在kinetics上进行了训练，实验结果如下图所示：
在这里插入图片描述
可以看到上图右侧C3D的验证集准确率要高于训练集，所以欠拟合了。而3D-ResNets则没有欠拟合，表明对于kinetics数据集来说，C3D网络太小了。

结论

介绍这篇论文主要还是为了让大家关注它的github，哈哈。

猜你喜欢

转载自blog.csdn.net/zzmshuai/article/details/84979499

【论文阅读】Learning Spatio-Temporal Features with 3D Residual Networks for Action Recognition

Learning hierarchical spatio-temporal features for action recognition with ISA

论文学习：Learning spatio-temporal features with 3D convolutional networks

【论文阅读】Human Action Recognition using Factorized Spatio-Temporal Convolutional Networks

《Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks》算法详解

读书笔记9：Spatio-Temporal LSTM with Trust Gates for 3D Human Action Recognition

Deep Spatio-Temporal Residual Networks for Citywide Crowd Flows Prediction论文笔记

浅谈对Pose-conditioned Spatio-Temporal Attention for Human Action Recognition论文感悟

论文翻译：Pose-conditioned Spatio-Temporal Attention for Human Action Recognition

Deep Spatio-Temporal Residual Networks for Citywide Crowd Flows Prediction

【论文阅读】Learning Spatiotemporal Features with 3D Convolutional Networks

论文翻译：Spatio-Temporal Naive-Bayes Nearest-Neighbor (ST-NBNN) for Skeleton-Based Action Recognition

双流网络行为识别-Spatiotemporal Residual Networks for Video Action Recognition-论文阅读

《3D Convolutional Neural Networks for Human Action Recognition》论文阅读笔记

论文Action Genome: Actions as Composition of Spatio-temporal Scene Graphs

【AAAI 2017】Deep Spatio-Temporal Residual Networks for Citywide Crowd Flows Prediction

视频理解论文阅读笔记——Learning Spatiotemporal Features With 3D Convolutional Networks

【论文阅读】Spatio-Temporal Graph Convolutional Networks:...Traffic Forecasting[时空图卷积网络:用于交通预测的深度学习框架]（3）

论文阅读笔记: 2016 ECCV Temporal Segment Networks: Towards Good Practices for Deep Action Recognition

【论文阅读】Temporal Segment Networks: Towards Good Practices for Deep Action Recognition

【论文阅读】Spatio-Temporal Graph Transformer Networks for Pedestrian Trajectory Prediction/ECCV

论文阅读：Action Genome: Actions as Composition of Spatio-temporal Scene Graphs

论文笔记之C3D（Learning Spatiotemporal Features with 3D Convolutional Networks）

STGCN:Spatio-Temporal Graph Convolutional Networks: A Deep Learning Framework for Traffic Forecastin

【IEEE TDKE 2020】Flow Prediction in Spatio-Temporal Networks Based on Multitask Deep Learning

【程序阅读】Spatio-Temporal Graph Transformer Networks for Pedestrian Trajectory Prediction/trainval.py

【程序阅读】Spatio-Temporal Graph Transformer Networks for Pedestrian Trajectory Prediction/STAR/star.py

论文笔记：ST2Vec: Spatio-Temporal Trajectory SimilarityLearning in Road Networks

[骨架动作识别]STA-LSTM: Spatio-Temporal Attention Model for Human Action Recognition from Skeleton Data

Interpretable 3D Human Action Analysis with Temporal Convolutional Networks

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

周排行

购置笔记本常识

从源码看Spring Security之采坑笔记（Spring Boot篇）

大数据学习——高可用配置案例

如何避免选择不专业的建站公司?

Euclid's Game HDU - 1525（博弈）

面试笔记（六）---Js实现eventHandler

Windows 实例搭建的 FTP 在外网无法连接和访问

设计模式 : 桥接模式

USB 设备驱动开发之几个重要结构体分析

14-p14_sqrt求平方根

每日归档

更多

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)