mobilesam:모바일 애플리케이션을 위한 경량 샘으로 무엇이든 더 빠르게 분할

Faster Segment Anything(MobileSAM): 모든 것을 더 빠르게 분할하고, 모델은 60배 더 작고, 속도는 50배 더 ​​빠름-원래 제목 : Faster Segment Anything: Towards Lightweight SAM for Mobile Applications [github code] 기사 링크: 더 빠르게 Segment Anything : Towards Lightweight SAM for Mobile ApplicationsFacebook 최근 출시… 1. Background sam(segment anything model)은 비주얼 베이직 모델로서 비주얼 세그먼테이션에서 매우 좋은 성능을 보인다. 자세한 내용은 [논문 해석] MetaAi SAM(Segment Anything)이 모든 것을 분할한다는 기사를 참조하십시오. sam의 주요 부분 중 하나는 이미지 인코더이며 이미지 인코더는

공식적으로 공개된 세 개의 pth 파일은 vit-h: 2.38g, vit-l: 1.28g, vit-b: 357mb로 비교적 큽니다. 위에서 볼 수 있듯이 vit 기반 이미지 인코더의 매개변수 수는 600M을 초과하고 프롬프트 가이드 마스크 인코더는 4M 매개변수만 있습니다. 프로세스는 지식 증류, 이 직접 교체 및 재훈련의 어려움은 이미지 인코더와 마스크 디코더의 결합 최적화에 있습니다.분할 정복의 아이디어를 기반으로 인코더 또는 디코더를 수정하고 다른 것을 최적화할 수 있습니다. . 그러나 마스크 디코더 세그먼트의 프롬프트 선택은 임의적이므로 마스크 디코더를 가변적으로 만듭니다.mobilesam의 핵심 솔루션은 디커플링 증류 방법을 사용하고 프롬프트 유도 마스크 디코더를 고정하고 vit-h를 다음으로 증류하는 것입니다. 인코더의 작은 이미지.

방법도 매우 간단합니다. 즉, 프롬프트 인코더+마스크 디코더를 변경하지 않고 tinyvit을 사용하여 경량 버전의 sam을 훈련시키는 것입니다. 그 효과는 여전히 좋고 fastsam보다 낫습니다.

Supongo que te gusta

Origin blog.csdn.net/u012193416/article/details/132056137
Recomendado
Clasificación