약한 감독 및 학습의 깊이에 기초하여 이미지 분할의 개요

[검사]을 이미지 분할의 개요 약한 감독 및 학습의 깊이에 기초

이 문서에서는이 방법의 장점에 대한 약한 감독 및 감독 방법의 원리를 기반으로 약한 감독의 영상 분할 깊이 연구의 리뷰입니다.

1 개 기본 개념

인생은 상황이 그런 사람들, 컵, 하늘 등등과 같은 우리 주위와 "태그"이다. 다른 시나리오에서, 같은 일이, 그림의 또 다른 그림이 속하는 예 : "잔디"가능성 "냄비"에 소속되어 냄비에 성장이라는 지상에 잔디의 긴 조각으로, 다른 레이블에 대응할 수있다 "장식."

전체 이미지의 픽셀이 우리가 살고있는 세상과 비교할 경우, 우리와 주변의 사물의 형성에 같은 "태그"를 가지고있다. 이미지 분할 작업은 "태그"이라는 자신의 해당 픽셀이며,이 "전체"카테고리에 속하는 태그 픽셀에 일반적으로 의존한다. 예를 들어, 다음 그림은 하늘, 식물, 잔디와 코끼리로 나눌 수 있습니다.

물론, 생활은 여러 범주에 속할 수 픽셀의 분류에 따라 유사하다. 전체에있어서도 예의 의자의 구성의 화소가 '자'으로 표시되어야하고, 세그먼트는 물질이다 점에있어서, "등받이"이다 "우드."

다양한 방법 및 태스크는 이미지 분할의 많은 유형으로 나눌 수있다. (컨텐츠의 관리) 전경과 (내용에 대해 걱정하지 않는다 전망의 다른 부분에 추가) 배경 : 단지 이미지의 주요 내용에 대해 신경 때 예를 들어, 카테고리는 두 가지 범주에있을 수있다. 또는 특정 셀 수 등 보행자, 자전거, 컵으로, 관심 등, 또는 하늘, 잔디, 바다 등 만 대상에 관심을 셀 수. 따라서, 우리는 아래의 두 가지 분류를 제시한다 :

- 모델 분류 기준 : 분할을 달성하기위한 수단과, 이미지 분할은 대략 학습에 기초하여 종래의 방법과 방법의 깊이로 분류 될 수있다. 후자의 분할을 달성하기 위해 (신경망 등, 임의의 나무 등) 딥 러닝 구조에 의존하는 반면, 전자는 구현 순수한 수학적 유도 식 분할 의존.

- 태스크에 의한 분류 : 특정 이미지 분할 작업에 따르면, 의미 론적 분할 (분할 의미), 분할의 예 (예 : 분할) 파노라마 부문 (panoptic 세그먼트)로 분할 될 수있다.

상술 한 바와 같이, 의미 적 분류는 모든 화소의 "컵"에 속하는 모든 화소는 하늘, 차량, 유리 등과 같은 클래스 라벨을 겪는 것을 요구하지만, 즉 동일한 종류의 개인을 구별하지 않는 비교적 쉽게 인 포인트는 같은 레이블로 표시된다. 어려운 이상의 의미 분할 및 분할의 예는, 그것은 픽셀 레이블을 원하지만, 또한 "이 잔 '과 같은 카테고리의 인스턴스를 구별 할뿐만 아니라 필요"컵. "

그러나, 일반적으로 물체 번호 분할 될 수있는 분할 제한적인 예를 필요로하며, 셀 수없는 콘텐츠에서는, 어느 분할 없음 (예 잔디밭, 도로, 등), 또는 범주에 속한다. 그것은 하나 개의 카테고리에 속하는 셀 수없는 레이블 픽셀이 동일하게 표시되고, 화소 모두는 예를 붙이고 여러 클래스에 속할 때, 분할 탁이라고되었다 (아래 그림).

본 논문에서는 파노라마 부문 의미 분할, 분할 및 예제를 포함하여 깊이 영상 분할 기반 학습을 소개합니다.

2 왜 약한지도 학습

앞서 언급 한 것처럼, 영상 분할 작업은 각 픽셀에 주석을하는 것입니다. 따라서, 학습 방법 깊이는, 표시되어있는 모든 화소 직관적 참값을 필요로한다. 보이지 아니,이 요구 사항에 따라, 진정한 가치 라벨은 특히 방법의 수동 주석에 매우 많은 시간이 소요 생성됩니다. 예를 들어, 도시 풍경 데이터베이스, 표준 조건 벌금에서, 라벨의 사진은 1.5 시간이 필요합니다. 그 결과, 데이터베이스의 비용은 상상 표시된.

이를 바탕으로 많은 연구자하여 라벨의 비용을 절감하는 방식의 약한 감독의 네트워크 교육을 생각합니다. 이른바 약한 감독이 실제 값은 마크의 실제 값을 표시 화소에 의해 더욱 용이하게 대체 가능한 픽셀을 사용하는, 일반 입력 화상 레벨 태그 및 바운딩 박스있다. 다음 그림은 두 개의 레이블의 예를 보여줍니다.

이미지 수준 태그 : 라벨에 그림에 해당합니다. 위와 같이, "고양이."라고 표시된

바운딩 박스 : 목표 위치, 즉 존재는 직사각형 프레임과 라벨 (2D) 또는 장방형 (3D)에 의해 주어진다.

볼이 두 레이블 픽셀에 의한 표시 픽셀보다 훨씬 더 쉽게. 즉, 바운딩 박스에 의해 표시가 약 7 초 필요와 표지 화상 레벨 태그가 이러한 방식으로 하나의 초당 필요로, 타임 스탬프는 데이터베이스 도시 경관 30 시간이 단축된다.

감독 약한 알고리즘이 네트워크의 일부가 직접 입력으로 표시이고, 상기 네트워크의 일부가, 그 전체의 관리 대상이 훈련에 기초하여 표시된 표시 픽셀 포인트를 생성하는 것이다. 그러나 어느 쪽이든, 라벨은 직접 비용을 절감 볼 수 있습니다.

(3) 일반 약한 감독 분할 알고리즘

어떤 특정 약 감독 분할 알고리즘의 공통 입력에 대한하자의 이야기의 측면에서 기본 개념과 필요성을 가졌어요. 분할 작업에서는 일반적으로 사용되는 네트워크 분할 등, AlexNet, VGG, GoogleNet, ResNet 및 ReNet 가지고 있으며, 일반적으로 도움이 전송 학습하고 필요한 데이터 처리 및 확장이 더 세분화를 달성하기 위해. 약한 감독 분할 알고리즘에서 이러한 방법과 구조도 매우 일반적입니다. 구체적으로, 태스크 분할 방법은 일반적으로 복호기 (디코더)의 변형 사용되며, 예 CRFs 같은 콘텍스트 정보의 통합을위한 방법, 확장 컨벌루션 다중 스케일 추정 융합 특징으로하는 방법.

아키텍처 디코더 - 전형적인 인코더도있다.

분할 알고리즘의 검토가 계정에 많은되어 촬영이 문서는 분할 알고리즘 특별 대우 약한 감독에 초점을 맞추고 있습니다. 다른 태스크에 대한 요구는, 의미 론적 분할 알고리즘에 따라 각각의 입력은, 예 (전경 분할을 의미 분류에 포함된다) 분할 요약 및에 동시에 두 파노라마 분할 분할 작업, 따라서 개별적으로 나열을 수행한다. 전반적으로, 더 있지만, 예 세분화 및 파노라마 부문의 의미 세분화 연구의 현재 약한 감독 적은을 많이해야합니다. 때문에 예를 들어 논문의 많은 수의, 각 장면의 목록을 하나의 대표 종이에.

1. 분할 알고리즘 이미지 수준의 태그를 기준으로

이미지 수준 태그가 전술 한 예에 부여 된, 그것은 라벨의이 종류는 주로 같은 범주에 공통으로 포함되어 볼 수 있지만하지 않고, (예를 들어, 모든 자동차는 "차"로 표시됩니다 인스턴스간에 구별 할 수 없습니다 우리는 색깔, 모양, 크기, 브랜드 등)을 구분합니다. 이렇게 화상 레벨 태그로서는 주로 의미 분할 알고리즘, 또는 의미 론적 분할 또는 분할 기능 파노라마 분할 알고리즘을 사용한다. 여기에 깊이 이미지 수준의 태그를 기준으로 분할 알고리즘은 학습의 소개 부분에 따라 분류.

(1) "내장 전경 / 이전 약하게-감독 시맨틱 분할의 배경"

이 논문에서 제안 된 방법은보다 정확한 분류 결과를 달성하기 위하여 타겟 태그 론적 분할 사전 훈련 등의 사용이다. 이러한 목적을 달성하기 위하여,이 방법은 그 역할이 배경 정보를 무시하고, 잠재 화소에게 정보를 제공하는 사전 훈련 네트워크를 구성한다.

다음은 특정 네트워크 구조이다. 일반적인 네트워크를 통해 인코더, 입력 화상 주어 - 디코더 구조, 최종 마스크는 다음 조건이 랜덤 필드 (CRF)를 생성한다. 전체 네트워크를 훈련하는 것은에서만 이미지 수준의 태그를 필요로한다.

초월 배경, 용지의 화상의 전면에 내장 된 네트워크 구조의 약함 감시 기능.

디코더, 용지의 화상의 뉴럴 네트워크 부분의 전체 구조 - 그림은 인코더이다. 네트워크 구조는 VGG-16 네트워크 구조의 수용 필드 (128), 단계 8 내지.

(2) 「화상 레벨 라벨로부터 오브젝트 세그멘테이션에 대한 현출 성을 악용 "

이전의 연구들은 화상 레벨에서 라벨 (아래와 같이) 서로 다른 대상 정보를 추출 할 수 있음을 증명하고있다.

열지도 (히트 맵), 종이의 영상.

자세한 내용은 전체 수집 대상 매우 어려운 (본질적으로 잘못 제기 문제)의 부재에서 다음, 대상 블록 사이에있는 경우 그러나 그것은 또한, 위의 열지도에서 볼 수 있습니다.

이러한 이유로 본 논문에서는 모델이 추가 정보를 제공 할 수 있습니다 제공합니다. 전체 네트워크를 훈련 만 이미지 수준의 레이블과 돌출 마스크를 사용합니다. 그림은 서류와 결과가 표시됩니다.

 

다음은 알 수있는 특정 네트워크 구조 및 병렬 네트워크를 분할하는 보조 정보가, 최종 공통 손실을 계산하기 위해 사용된다. 신문에서 사진.

경계 상자를 기반으로 2 분할 알고리즘

경계 상자는 일반적으로 대상 표시 방법을 식별하는 데 사용됩니다. 코코 챌린지 대회가 더 많은 관심 픽셀 수준의 세분화 작업 취소 많은 경계 상자 출력의 한 부분으로 만 된 많은 알고리즘은, 탐지 경계 상자의 매우 높은 정확도를 달성 할 수 있었다.

그럼에도 불구하고, 효과적으로 다른 인스턴스를 구별 할 수 표시하는 방법으로 경계 박스를 모두 의미 정보를 포함하고, 정보도 예제가 포함되어 있습니다. 따라서, 경계 상자는 널리 사용되는 작업은 특정 나누어 파노라마 인스턴스 분할에서 분할.

(1) 분할 의미

"이전 경계 상자와 이미지 분할"

벤치 마크 여기에 배치 논문은, 2009 년 마이크로 소프트는 전망의 전통적인 방법에 따라 분할 방법을 제안 하였다. 경계 상자가 널리 영상 분할 작업에 사용되지만 제외한 대부분의 알고리즘은 외부 정보 때때로 초기화하거나 에너지 기능을하는 데 사용됩니다 제외되지만, 이에 앞서.

이 논문은 경계 상자 (위상 이전), 모두 과도한 위축 모델을 방지하기 위해 강력한 사전 토폴로지로 사용할 수 있습니다 제안 (전경 분할 대상 영역 이하), 또한 경계 상자가 분할 작업에 대한 충분한 보장 할 수 있습니다. 와 논문 강력 NP-하드의 전체 프로그램을 구성하기 위해, 선험적이 프레임의 글로벌 에너지 최소화 식에 포함 된 제약.

왼쪽 그림은 선험적 오른쪽 분할 결과가 어떤 선험적 세그멘테이션 결과 없다. 신문에서 사진.

다음 수식 프로그램 (IP) 정수 얻어지는 기밀성 전에 (gruph 잘라 틀)로 그래프 컷 :

다음 용지는 선형 휴식과 새로운 그래프 컷 알고리즘 (라고 핀 포인팅)를 포함하여 가능한 최적화 전략을 제시한다. 후자 (라운딩에있어서, 상기 임계 방법보다 더 나은 결과를) 라운딩 분수 LP 용액, 또는 별도의 고속 휴리스틱 탐색 (빠른 독립형 휴리스틱) 등있다. 그림은 종이에서, 화상을 정확히 파악 결과이다.

그림은 알고리즘이 다른 알고리즘 논문, 용지의 영상의 실험 결과와 비교한다. 그것은 남자의 머리 근처에 볼 수 있고, 식물 지점 근처에서 본 논문의 알고리즘은 분명한 장점이 있습니다.

스플릿 (2) 실시 예

"DeepCut : 경계 상자 주석에서 개체 분할 사용 길쌈 신경망"

이 논문은 주어진 약한 라벨의 분할의 예를 제시한다. 확장 할 것을 제안 GrabCut 것이다 마이크로 소프트 리서치는 경계 상자의 주어진 신경망 분류기 훈련을 얻을 수 있습니다. 이 논문은 공항에서 조밀 한 에너지 최소화 문제와 관련하여 조건 등의 문제를 분류하며, 분할의 예는 지속적인 반복을 통해 달성.

종이는 방법 DeepCut 일부 변형을 제안하고, 다른 알고리즘이 약한 감독 조건에 비교 하였다. 이 두 문제 해결 뇌와 폐의 알고리즘을 실험되었는지, 정밀도가 좋은 (태아 magnetric 공명 데이터 세트를 사용하여 데이터베이스)도 주목할 만하다. 다음은 논문에서 가져온 기본 DeepCut 네트워크 구조, 이미지입니다.

그림은 실험 용지에서 사진의 결과입니다.

3. 분할 파노라마

"약하게 및 세미 감독 Panoptic 분할"

이 문서 분할 파노라마 감시 약한 네트워크 구조 (분할 론적 분할의 일례)에 기초한 방법, 현재 시맨틱 분류를 먼저 상기 실시 예에서 분할되어 도시 경관을 설명한다. 사실, 주요 논문은 픽셀을 라벨링하는 방법은 이미지 수준 태그에 의해 생성 될 수 있으며, 경계 상자는 물론,이 방법은 모든 픽셀의 진정한 가치를 표시 할 수 없지만, 이러한 픽셀 이론은 앞서 언급에 따라 제안 수는 네트워크의 교육을 지원하기 위해 충분하다. 한편, 진정한 가치는 점진적으로 개선 된 네트워크 구조로 훈련하는 것입니다. 그림은 태그, 논문에서 촬영 한 이미지의 전체 과정의 진정한 가치입니다.

실시 예 결과, 용지의 사진.

논문 결과, 용지의 이미지도.

4 요약한다

이 글을 통해, 우리는뿐만 아니라 일반적으로 방법을 사용 종류의 영상 분할의 무엇 무엇 약한 감독 및 영상 분할의 교육은, 배웠습니다. 간략하게, 관리 대상 훈련 미만으로 약하고, 라벨의 참값 용이하여 라벨에 기초하여 비용을 줄이고, 표시 화소 대신하여 참값 화소 구하여 세분화의 높은 수준을 유지한다.

이제, 분할, 분할 및 점진적 통합 부문의 의미 인스턴스의 필드의 지속적인 개발과 함께, 파노라마 부문은 새로운 주류가되고있다. 약한 감독 라벨을 잘 활용하는 방법에 관해서는, 얼마나 높은 정확성 파노라마 부문을 달성하기 위해, 우리는 당신에 의존하고 있습니다.

참조

[1] A. 반살, X. 첸 BC 러셀, 등. Pixelnet : 픽셀의 픽셀과 픽셀 [C] .CoRR 2017 대한 표현.

[2] F. 살레, Aliakbarian MS, SALZMANN M., 등. 이전 약하게 감수 시맨틱 분할 [C]에 대한 내장 전경 / 배경. ECCV 2016 권, 9912.

[3] 아 SJ, R. Benenson, Khoreva A., 등. 화상 레벨 라벨로부터 오브젝트 세그멘테이션 [C]에 대한 현출 악용. CVPR, 2017.

[4] VS Lempitsky, P. 콜리, 로테 C., 등. 영상

경계 박스 종래 [C]로 분할. ICCV 2009 : 277-284.

[5] M. Rajchl, MCH 리 Oktay O., 등. Deepcut : 콘벌 루션 신경망 [J]을 사용하여 상자 주석 경계에서 오브젝트 세그멘테이션. 674-683 : 의료 영상, 2017, 36 (2)에 IEEE 거래.

[6] Q. 리튬, A. Arnab 및 PHS 토르. 약하게 및 [C] panoptic 분할 세미 감독. ECCV, 2018 : 106-124.

[7] C. 로테, V. 콜 모고 로프 및 A. 블레이크. Grabcut : 양방향 전경 추출하여 반복 그래프 컷 [J]. 309-314 : 그래픽, 2004, 23 (3)에 ACM 거래.

게시 37 개 원래 기사 · 원 찬양 13 ·은 20000 +를 볼

추천

출처blog.csdn.net/qq_26078953/article/details/105405482