【论文笔记】视频分类系列 Temproal Segment Networks (TSN)

其他 2018-10-30 22:51:34 阅读次数: 0

版权声明：本文为博主原创文章，转载请注明。 https://blog.csdn.net/elaine_bao/article/details/79440384

论文：https://arxiv.org/abs/1608.00859
代码：https://github.com/yjxiong/temporal-segment-networks

1. 引言

在视频分类中，对长时间域的建模有利于掌握整个视频的类别。而ConvNets擅长的是对appearance的建模和短时的motion。因此对于长时域结构的建模，CUHK提出了TSN。
视频里面的连续帧是存在很多冗余信息的，所以dense temporal sampling是不必要的，sparse temporal sampling比较合适。所以TSN的思想之一就是从长的视频中稀疏采样一些帧，然后再聚合起来，这样就能建模长时间域了。另外一个思想，TSN借鉴于two-stream的结构来同时建模appearance和dynamic。

2. TSN

这里写图片描述

2.1 网络结构

TSN的结构是two-stream，其中spatial的输入是视频中稀疏采样得到的帧序列。为了保证视频中各个位置都能采样到，TSN引入了segment的概念，即把整个视频分成segment份，然后在每一份中分别采样帧。这种做法是它long-range temporal structure的具体体现。
temporal的分支也是分segment的，不过它在每一份中会抽取多帧flow stack到一起作为输入。

2.2 训练相关

Cross Modality Pre-training. 用Spatial的模型来初始化Temporal的部分。首先将光流值scale到0～255，然后将Spatial模型的第一层conv层的weights作改变，即将3个channel的weights平均得到avg weights，然后将这个weights重复n次，n=temporal网络的channel数目。
Regularization Techniques. 提出了Partial-BN，即只对第一个BN层进行参数优化，其他BN层的参数都固定。同时在global pooling层后面增加一个额外的dropout层来减少过拟合的可能。dropout ratio在spatial net里等于0.8，在temporal net里等于0.7。
Data Augmentation. random cropping，horizontal flipping，corner cropping，scale jittering。其他都根据字面意思可以理解，那scale jittering的做法是指，帧／光流图输入大小都是256*340，然后将宽和高分别random crop／corner crop成{256,224,192,168}，再resize到224*224进行训练。

猜你喜欢

转载自blog.csdn.net/elaine_bao/article/details/79440384

【论文笔记】视频分类系列 Temproal Segment Networks (TSN)

[行为识别论文详解]TSN(Temporal Segment Networks)

【视频理解】TSN Temporal Segment Networks: Towards Good Practices for Deep Action Recognition 笔记

论文学习：（TSN）Temporal segment networks: Towards good practices for deep action recognition

【论文笔记】视频分类系列 Appearance-and-Relation Networks for Video Classification (ARTNet)

【视频行为识别6】TSN(Temporal Segment Network—ECCV2016

论文笔记之TSN

Temporal-Action-Detection-with-Structured-Segment-Networks笔记

TSN论文阅读

TSN论文介绍

TSN论文简介

TSN视频识别详解

TSN

论文阅读笔记: 2016 ECCV Temporal Segment Networks: Towards Good Practices for Deep Action Recognition

Segment Anything——论文笔记

【论文阅读】Temporal Segment Networks: Towards Good Practices for Deep Action Recognition

视频行为识别阅读[2]Temporal Segment Networks: Towards Good Practices for Deep Action Recognition[2016]

SSN：Temporal Action Detection with Structured Segment Networks

【论文笔记】Fast Segment Anything

Decoupled Networks 论文笔记

[论文笔记] highway networks

Action Recognition TSN论文理解

Temporal Action Detection with Structured Segment Networks (ssn)【转】

Set Maximum Segment Size (MSS) in Redhat Linux for Networks & Hosts

论文解读：Segment Anything

论文翻译：Segment Anything

Segment Anything论文解读

【论文笔记】视频分类系列 Recognize Actions by Disentangling Components of Dynamics

【论文笔记】视频分类系列 Temporal Relational Reasoning in Videos （TRN）

论文笔记：Spectral Networks and Deep Locally Connected Networks on Graphs

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)