机器视觉 多模态学习11篇经典论文代码以及解读

此处整理了深度学习-机器视觉,最新的发展方向-多模态学习,中的11篇经典论文,整理了相关解读博客和对应的Github代码,看完此系列论文和博客,相信你能快速切入这个方向。每篇论文、博客或代码都有相关标签,一目了然,整理到这里了

webhub123 机器视觉 多模态学习11篇经典论文

在网站中的效果如下,全部放在对应的AI目录中,便于管理。这样就不需要在每个网站一个个点击收藏,然后再也找不到了

CLIP Learning Transferable Visual Models From Natural Language Supervision  图片和文本之间的对比学习

ViLT ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision 第一个摆脱了目标检测的视觉文本模型

ViLD OPEN-VOCABULARY OBJECT DETECTION VIA VISION AND LANGUAGE KNOWLEDGE DISTILLATION CLIP蒸馏帮助开集目标检测a

GLIP Grounded Language-Image Pre-training 联合目标检测和文本定位

CLIP4Clip CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip 拿CLIP直接做视频文本retrievala

ActionCLIP ActionCLIP: A New Paradigm for Video Action Recognition 用多模态对比学习有监督的做视频动作分类

PointCLIP PointCLIP: Point Cloud Understanding by CLIP 3D变2D,巧妙利用CLIP做点云

LSeg LANGUAGE-DRIVEN SEMANTIC SEGMENTATION 有监督的开集分割

GroupViT GroupViT: Semantic Segmentation Emerges from Text Supervision 只用图像文本对也能无监督做分割

CLIPassoCLIP CLIPasso: Semantically-Aware Object Sketching  跨界生成简笔画

DepthCLIP Can Language Understand Depth? 用文本跨界估计深度

论文和简介整理自 GitHub - mli/paper-reading: 深度学习经典、新论文逐段精读 其他博客和代码为手工整理,读者可以根据自己喜好,在网站上复制到自己的收藏中,然后手动替换即可。

猜你喜欢

转载自blog.csdn.net/huangxia73/article/details/129000756
今日推荐