论文阅读：Segment Anything之阅读笔记 - 代码天地

论文阅读：Segment Anything之阅读笔记

业界资讯 2023-07-18 21:25:35 阅读次数: 0

目录

引言

论文：Segment Anything是Meta出的图像语义分割的算法。这个算法因其强大的zero-shot泛化能力让人惊艳，这不抽空拿来学习了一下。
该算法的代码写得很清楚、简洁和规范，读来让人赏心悦目。推荐去看源码，很有意思。
本篇文章，将以问答形式来解读阅读过程中遇到的困惑，想来这种方式效率更高一些。
PDF | Code

整体结构介绍

在这里插入图片描述

整体分为三大部分：image encoder、prompt encoder和mask decoder。下图看的更加清楚一些，也是来自论文。

论文问答

代码仓库中，模型哪部分转换为了ONNX格式？以及如何转的？

mask_decoder部分做了转onnx格式
直接采用torch.onnx.export函数接口转的。因为没有采用transformer函数库，因为转换较为简单。
- 先基于torch构建整个部分模型，构建模型输入。
- 调用torch.onnx.export函数来转换

Mask decoder部分 Transformer decoder block?

该部分采用的动态mask预测头。
在两个方向上（prompt-to-image embedding 和相反的）使用了prompt self-attention和cross-attention来达到更新所有embedding的目的。

如何整合image_embedding，image_pe, sparse_prompt_embedding和dense_prompt_embedding的？

通过mask decoder这一部分来做的。采用的是修改过的Transformer decoder block.

points, boxes, text和masks四种类型prompt如何嵌入到网络中？

points, boxes, text在论文中称为sparse prompt。masks类型被称为dense prompt
points和boxes 是以positional encodings（位置编码）和每个提示类型的学习嵌入来表示的。
text是来自CLIP的text encoder表示的。从demo中并没有看到text输入的prompt，从issue #93中验证了这点
mask是使用卷积嵌入，并与图像embedding逐元素求和

什么样的任务具有zero-shot泛化能力？

模型以promptable的方式训练得到，因此具备zero-shot的泛化能力

猜你喜欢

转载自blog.csdn.net/shiwanghualuo/article/details/131551036

论文阅读：Segment Anything之阅读笔记

论文阅读_Segment_Anything

Segment Anything阅读笔记

论文：Learning to Segment everything阅读笔记

Segment Anything——论文笔记

论文阅读笔记（三十）：Learning to Segment Every Thing

[自注意力神经网络]Segment Anything(SAM)论文阅读

论文解读：Segment Anything

论文翻译：Segment Anything

Segment Anything论文解读

【论文笔记】Fast Segment Anything

论文阅读笔记: 2016 ECCV Temporal Segment Networks: Towards Good Practices for Deep Action Recognition

论文阅读笔记二十二：Learning to Segment Instances in Videos with Spatial Propagation Network（CVPR-20017）

论文阅读笔记8——Track to Detect and Segment:An Online Multi-Object Tracker(TraDeS)

Segment Anything论文详解（SAM）

【论文阅读】Temporal Segment Networks: Towards Good Practices for Deep Action Recognition

论文阅读博客||很多论文阅读笔记

PointCNN 论文阅读笔记

论文阅读笔记

论文阅读笔记：Dropout

PVANet论文阅读笔记

SSD论文阅读笔记

FPN论文阅读笔记

MTCNN论文阅读笔记

9.17论文阅读笔记

SLAM论文阅读笔记

MapReduce 论文阅读笔记

阅读论文笔记

GAN 论文阅读笔记

Raft论文阅读笔记

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)