LRCN:基于深度学习的视频行为识别/动作识别

CNN-LSTM方法

         在深度学习中能够良好表达序列化特征的网络架构就是RNN网络,其中表现最好的实现形式即是RNN的LSTM,故将LSTM与CNN相结合能够将空间特征与时间特征更完整的进行学习,从而实现"deep in time"

                                                                                                    LRCN三种应用形式

算法架构

先给出个论文内的示意图,将来我会针对LRCN算法继续发表其源码如何实现算法的文章,届时再详细对算法架构进行深度分析。

                                                                               LRCN算法架构

 参数配置

1 CNN的部分仍然用传统的AlexNet,但实验中发现全连接层fc6和fc7差距较小,舍弃了fc7,将fc6的结果作为LSTM的输入;

2 LSTM的部分隐藏单元数量分别使用了256、512、1024,但数量增多效果增益不明显,最后隐藏单元数RGB输入时256个,光流输入时1024个。

训练集预处理

1 AlexNet使用了ILSVRC-2012的预训练

MORE

发布了1750 篇原创文章 · 获赞 400 · 访问量 261万+

猜你喜欢

转载自blog.csdn.net/tony2278/article/details/105223993