NeXt VLAD多模态视频分类 - 代码天地

NeXt VLAD多模态视频分类

其他 2020-03-17 10:21:31 阅读次数: 0

NetVLAD最初是用于位置识别中聚合空间表达，发现比常规的时间模型（LSTM/GRU）用于聚合视觉和听觉特征任务更有效、更快。Net VLAD主要的一个缺点是特征维度高，基于这种特征的大的分类模型需要几百百万的参数。例如，一个Net VLAD网络有128个聚类，特征2048维，那么作为向量就是262144维。后面的全连接层是2048维度的输出，那么将有537M的参数。这种低效的参数将使得模型很难优化，且容易过拟合。

为了解决上述问题，受ResNeXt启发，开发了新的网络结构NeXt VLAD。与NetVLAD不同的是，输入的特征在聚合及编码之前用attention分解成一组相对低纬度的向量。潜在的假设是一个视频帧可能有多个目标，在编码之前分解成帧级特征对模型产生更简单的视频表达是有益的。NeXtVLAD模型收敛更快，且能阻止过拟合。

下面是NeXt VLAD结构图：

输入xi向量先经过线性FC全连接层扩展成λN维度，λ设定为2，波浪表示reshape操作，从(M,λN)到(M,G,λN/G)

其中的G是群组数。

[具体做法可以参考阿里优酷的做法]

另外有相关问题可以加入QQ群讨论，不设微信群

QQ群：868373192

语音图像视频深度-学习群

SpeechImageKing

发布了226 篇原创文章 · 获赞 214 · 访问量 6万+

私信关注

猜你喜欢

转载自blog.csdn.net/SPESEG/article/details/104861895

NeXt VLAD多模态视频分类

next

【论文阅读】Attention Bottlenecks for Multimodal Fusion---多模态融合，音视频分类，注意力机制

hexo之next主题添加分类

视频分类

视频分类算法

【NexT】NexT升级相关

hexo-next主题添加分类方法总结

深度学习视频分类

新加坡国立大学提出NExT-GPT：「大一统」通用多模态大模型

Next数组

Next Permutation

A - Next Round

NEXT STEP

Next RunLoop

__next__()

.next()的理解

next day

芯片next

next()函数

[Next] 03.next的优化

视频分类工程实践的几个方面

视频分类数据集介绍

Java实现视频分类【内链】

NeXtVLAD视频分类pb模型修改

雪亮工程视频分类总结

视频分类Video-Swin-Transformer

视频分类之数据集介绍

视频分类（Video Classification）任务概述

React SSR & Next.js & GraphQL & TypeScript 入门与进阶实战视频教程（18 个视频）

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)