21장: PUZZLE-CAM: 로컬 및 글로벌 기능을 일치시켜 현지화 개선

0. 요약

        약하게 감독된 의미론적 분할(WSSS)은 픽셀 수준 감독에서 이미지 수준 감독까지 의미론적 분할 성능 격차를 줄이기 위해 도입되었습니다. 대부분의 최첨단 방법은 클래스 활성화 맵(CAM)을 기반으로 분할 네트워크를 훈련하기 위한 의사 레이블을 생성합니다. WSSS의 주요 한계는 이미지 분류기를 사용하여 CAM에서 의사 레이블을 생성하는 프로세스가 주로 객체의 가장 구별되는 부분에 초점을 맞춘다는 것입니다. 이 문제를 해결하기 위해 우리는 분할 네트워크에서 독립적인 패치와 전체 이미지 특징 간의 차이를 최소화하여 객체에서 가장 통합된 영역을 찾는 Puzzle-CAM을 제안합니다. 우리의 방법은 퍼즐 모듈과 두 개의 정규화 용어로 구성됩니다. Puzzle-CAM은 추가 매개변수 없이 이미지 수준 감독을 사용하여 물체의 전체 영역을 활성화할 수 있습니다. 실험에서 Puzzle-CAM은 동일한 라벨 감독을 사용하여 PASCAL VOC 2012 데이터세트에서 이전의 최첨단 방법보다 성능이 뛰어났습니다. 우리 실험과 관련된 코드는 https://github.com/OFRIN/PuzzleCAM에서 찾을 수 있습니다.

색인 용어 - 이미지 분할, 딥 러닝, 신경망, 약한 지도 의미론적 분할

1. 소개

        의미론적 분할은 CNN(Convolutional Neural Network)을 사용하는 기본 방법으로, 이미지의 픽셀 수준 분류를 정확하게 예측하는 것을 목표로 합니다. 최근 FSSS(Fully Supervised Semantic Segmentation)가 상당한 진전을 이루었습니다[1, 2, 3]. 그러나 각 이미지에 대한 정확한 픽셀 수준 주석이 포함된 대규모 교육 데이터 세트를 생성하는 것은 비용이 많이 들고 시간과 노동 집약적인 작업이 필요합니다. 이 문제를 해결하기 위해 많은 연구자들은 이미지 수준 주석, 낙서, 경계 상자 및 점을 사용하여 네트워크를 훈련시키는 WSSS(Weakly Supervised Semantic Segmentation)에 중점을 둡니다. 이미지 수준 감독은 다른 방법에 비해 수행하기가 더 쉽습니다. 본 연구에서는 이미지 수준 감독을 사용하여 의미론적 분할 모델을 학습하는 데만 중점을 둡니다.

        대부분의 이전 WSSS 방법[4, 5, 6]은 좋은 성능을 달성하기 위해 클래스 활성화 맵(CAM) [7]을 기반으로 합니다. 그러나 생성된 CAM은 일반적으로 의미 객체의 작은 부분에만 초점을 맞춰 효과적으로 분류하므로 분할 모델이 픽셀 수준 의미 지식을 학습하지 못합니다. 또한, 타일링된 이미지의 고립된 패치에서 생성된 CAM이 원본 이미지에서 얻은 CAM과 다르다는 것을 알 수 있습니다. 그림 1에서 볼 수 있듯이 타일링된 패치로 구성된 타일링된 이미지의 CAM은 원본 이미지의 CAM과 크게 일치하지 않습니다. 이러한 차이로 인해 FSSS와 WSSS 간의 감독 격차가 더욱 확대됩니다.

        위의 관찰은 우리가 WSSS 문제를 해결하기 위해 주의 기반 기능 학습 방법을 사용하도록 영감을 줍니다. 따라서 우리는 객체의 통합된 영역을 감지하기 위한 WSSS 훈련용 Puzzle-CAM을 제안합니다. 우리의 방법은 타일과 원시 이미지에서 생성된 CAM에 해당하는 재구성 정규화를 적용하여 자체 감독을 제공합니다. 네트워크 예측의 일관성을 더욱 향상시키기 위해 이미지를 분할하고 타일 이미지에서 생성된 CAM을 병합하는 퍼즐 모듈을 도입합니다.

        Puzzle-CAM은 원본 CAM과 병합된 CAM 간의 차이를 줄이는 재구성 정규화 손실이 있는 Siamese 신경망으로 구성됩니다. 우리의 실험은 정량적, 정성적 결과를 모두 산출하여 우리 접근 방식의 우수성을 입증했습니다. 우리의 주요 기여는 다음과 같습니다:

  • 우리는 네트워크 계층을 추가하지 않고도 CAM의 품질을 효과적으로 향상시키기 위해 재구성 정규화와 퍼즐 모듈을 결합한 Puzzle-CAM을 제안합니다.
  • PASCAL VOC 2012 데이터 세트에서 Puzzle-CAM은 동일한 수준의 감독으로 기존의 최첨단 방법보다 성능이 뛰어납니다.

그림 1: 타일 이미지와 원본 이미지에서 생성된 CAM: (a) 원본 이미지의 기존 CAM, (b) 타일 이미지에서 생성된 CAM, (c) 제안된 Puzzle-CAM으로 예측한 CAM.

그림 2: 재구성 정규화와 퍼즐 모듈의 통합을 보여주는 제안된 Puzzle-CAM의 전체 아키텍처.

2.관련업무

2.1 CNN의 어텐션 메커니즘 사용

        이는 CNN에서 학습된 기능에 대한 세부적인 정보를 제공합니다. Simonyan 등[8]은 오류 역전파 전략을 사용하여 의미 영역을 시각화하는 반면, 공동 주의 모델은 CNN의 전역 평균 풀링(GAP) 계층을 사용하여 CAM을 보다 효율적으로 생성합니다[7]. 마지막으로 최종 분류기를 사용하여 Attention Map이 생성됩니다. 우리가 아는 한, 어떤 Attention 메커니즘이 선택되는지는 WSSS의 고성능 달성에 큰 영향을 미치지 않으므로 다른 Attention 메커니즘보다 처리하기 쉽기 때문에 Joint Attention 모델을 기반으로 Puzzle-CAM을 구축합니다.

2.2 약하게 지도되는 의미론적 분할

        이미지의 픽셀 단위 라벨링이 필요한 FSSS와 달리 WSSS는 경계 상자[9], 그래피티[10] 및 이미지 수준 분류 라벨[4, 6]과 같은 하위 수준 라벨링을 사용합니다. 최근에는 CAM 도입을 통해 WSSS의 성능이 크게 향상되었습니다. 대부분의 이전 WSSS 방법은 이미지 분류기에 의해 생성된 CAM을 세분화하여 대략적인 분할 마스크로 개선합니다[4, 11, 12, 13, 6]. AffinityNet [4]은 추가 네트워크를 훈련하여 픽셀 간의 유사성을 학습하며 일반적으로 전환 행렬을 생성하고 이를 CAM과 곱하여 활성화 범위를 조정합니다. IRNet [11]은 경계 활성화 맵에서 전환 행렬을 생성하고 약한 감독 인스턴스 분할 및 WSSS를 구현하는 방법을 확장합니다. SEAM [5]은 각 픽셀의 상황별 모양 정보를 캡처하는 픽셀 종속 모듈을 사용하고 학습된 친화력 주의 맵을 사용하여 원래 CAM을 변경함으로써 CAM을 개선하는 것을 목표로 합니다.

3. 방법론

3.1.동기부여

        기존 단일 이미지의 하이라이트는 각 카테고리의 가장 대표적인 영역을 보여줍니다. 따라서 이미지 패치에 대해 동일한 카테고리의 CAM을 생성할 때 모델은 객체의 일부만 사용하여 카테고리의 주요 특징을 찾습니다. 따라서 이미지 블록의 병합된 CAM은 단일 이미지의 CAM보다 개체 영역을 더 정확하게 강조합니다. 위의 장점을 활용하기 위해 우리는 단일 이미지의 CAM과 이미지 패치에서 병합된 CAM 간의 차이를 최소화하기 위해 재구성 손실을 사용하여 분류기를 훈련하는 Puzzle-CAM을 제안합니다. 이 재구성 손실을 사용하여 분류 네트워크를 훈련함으로써 CAM은 객체 영역을 보다 정확하게 포괄합니다. Puzzle-CAM에는 타일링된 이미지에서 생성된 CAM을 원본 이미지의 CAM과 일치시키도록 설계된 손실 기능이 포함되어 있습니다(그림 2).

3.2 CAM 방법 채용

        ​​​​​먼저 초기 Attention Map을 생성하기 위한 CAM 방법을 소개합니다. 특징 추출기 F와 분류기 θ가 주어지면 모든 범주에 대한 CAM 세트인 CAM을 생성할 수 있습니다. 이미지 수준 감독으로 분류기를 훈련한 후 입력 이미지 I에서 얻은 특징 맵 f = F(I)에 c 채널 분류기의 가중치를 적용하여 다음과 같이 클래스 c에 대한 CAM을 얻습니다.

        결과 CAM은 Ac의 최대값을 사용하여 정규화됩니다. 마지막으로 Ac를 연결하여 모든 범주의 CAM(A)을 얻습니다.

3.3 퍼즐 모델

        부분 기능과 전체 기능을 일치시킬 때 핵심은 FSSS와 WSSS 간의 격차를 줄이는 것입니다. 퍼즐 모듈은 타일링 및 병합 모듈로 구성됩니다. 타일링 모듈은 W×H 크기의 입력 이미지 I에서 시작하여 크기 W=2×H=2의 겹치지 않는 타일 fI1;1;I1;2;I2;1;I2;2g을 생성합니다. 다음으로, 각 Ii;j에 대해 Ai;j의 CAM을 생성합니다. 마지막으로 병합 모듈은 모든 Ai;j를 I의 CAM과 동일한 모양을 가진 단일 CAM으로 연결합니다.

3.4.Puzzle-CAM의 손실설계

        우리는 이미지 분류를 위해 예측 벡터 Y^=σ(G(Ac))를 융합하기 위해 네트워크 끝의 GAP 레이어를 사용하고 분류 작업을 위해 다중 레이블 소프트 에지 손실을 사용합니다. 표현의 편의를 위해 Yt를 다음과 같이 정의합니다.

        ​​​​여기서 α는 다양한 손실에 대한 무게 균형 계수입니다. 분류 손실 Lcls와 Lp−cls는 물체의 면적을 대략적으로 추정하는 데 사용됩니다. 재구성 손실 Lre는 픽셀 수준과 이미지 수준 감독 프로세스 간의 격차를 해소하는 데 사용됩니다. 실험 섹션에서 네트워크 훈련 설정의 세부 사항을 보고하고 제안된 모듈의 효율성을 탐색합니다.

표 1: ResNet-50을 백본 네트워크로 사용하는 Puzzle-CAM 손실 함수에 대한 절제 연구.

4.실험 결과

4.1 구현 세부사항

        ​​​​​우리는 PASCAL VOC 2012 데이터세트[14]를 사용하여 방법을 평가합니다. 데이터 세트는 학습용 이미지 1,464개, 검증용 이미지 1,449개, 테스트용 이미지 1,456개로 나뉩니다. 이전 방법[4, 5, 6]에서 사용된 실험 프로토콜에 따라 의미 경계 데이터 세트[15]에서 추가 주석을 얻었고 10,582개의 이미지가 포함된 향상된 훈련 세트를 구성했습니다. 이 이미지는 [320, 640] 범위에서 무작위로 크기가 조정된 다음 네트워크 입력으로 512×512로 잘립니다. 모든 실험에서 α를 4로 설정하고 α를 0.5epoch 이내에 최대값까지 선형적으로 점차 증가시킵니다. 추론 중에는 퍼즐 모듈 없이 분류기를 사용합니다. 따라서 우리는 의사 분할 레이블을 생성하기 위해 다중 스케일 및 수평 뒤집기를 사용합니다. 우리는 4개의 TITAN-RTX GPU를 사용하여 데이터 세트를 훈련했습니다.

4.2.절제 연구

        ​​​​​​​우리는 평균 mIoU(intersection-over-union) 측정 기준(표 1)을 적용하여 Puzzle-CAM의 주요 구성 요소에 대한 절제 연구를 수행했습니다. 여기서 기준은 mIoU = 47.82%였습니다. 제안된 타일 재구성 정규화(Lre)를 통해 기준선은 mIoU = 49.21%로 향상되는 반면 타일의 분류 손실(Lp-cls)은 기준선과 유사합니다. Lre와 Lp-cls 모두 지속적으로 기준선을 3.71% 향상시켰습니다. 손실 함수의 조합을 사용하여 CAM을 시각화합니다(식 3 참조). 분류 손실(Lp-cls)만 사용한 경우에는 결과에 한계 차이가 나타나지 않습니다. 동시에 재구성 손실(Lre)만을 사용한 경우 일부 범주에 대한 위치 파악 능력은 원래 결과보다 우수하지만 이 방법으로 여러 범주를 예측할 수는 없습니다. 두 가지 손실 세트를 결합하면 결과는 분류 손실 없이 향상된 위치 파악 기능을 보여줍니다.

그림 3: 손실 함수 조합을 사용하여 예측된 라벨과 CAM을 시각화합니다. (d)에서 최종 CAM은 과잉 활성화를 억제할 뿐만 아니라 CAM을 개체 활성화의 전체 범위로 확장합니다.

표 2: PASCAL VOC 2012 훈련 세트 [14]에서 평가된 의사 의미론적 분할 레이블의 mIoU 품질. RW, AffinityNet을 사용한 랜덤 워크 방법[4], dCRF, 조밀한 조건부 랜덤 필드[16].

4.3 기존 최신 방식과의 비교

        의사 픽셀 수준 주석의 정확도를 더욱 향상시키기 위해 [4]의 방법에 따라 Puzzle-CAM을 사용하여 AffinityNet을 교육했습니다. 우리는 일반적으로 학습된 특징 표현을 향상시키고 이미지 분류, 객체 감지, 인스턴스 분할 및 의미론적 분할의 성능을 향상시킬 수 있는 ResNeSt 아키텍처를 채택합니다. 표 2에서는 기본 AffinityNet [4]과 Puzzle-CAM에서 사용하는 원래 CAM의 성능을 보고합니다.

        최종 합성 의사 라벨은 PASCAL VOC 2012 훈련 세트에서 74.67%의 mIoU를 달성했습니다. 그런 다음 Puzzle-CAM은 완전 감독 모드에서 의사 레이블을 사용하여 ResNeSt-269[18] 백본으로 DeepLabv3+[1] 분할 모델을 훈련하여 최종 분할 결과를 얻는 데 사용됩니다. 표 3은 제안한 방법과 기존 방법의 mIoU 값을 비교한 것이다. 기본 방법과 비교하여 Puzzle-CAM은 동일한 교육 설정에서 검증 및 테스트 세트 모두에서 크게 향상된 성능을 달성합니다. 그림 4는 검증 세트에 대한 정성적 결과를 보여주며, 제안된 방법이 크고 작은 개체 모두에서 잘 작동함을 보여줍니다.

표 3: PASCAL VOC 2012 검증 및 테스트 세트에 대한 기존 최첨단 방법과 Puzzle-CAM의 비교. I는 이미지 수준 레이블을 나타내고 S는 외부 돌출 모델을 나타냅니다.

그림 4: PASCAL VOC 2012 검증 세트의 정성적 세분화 결과. 상단: 원본 이미지. 중간: 실제 주석. 하단: Puzzle-CAM에서 생성된 의사 라벨을 사용하여 훈련된 분할 모델의 예측.

5. 결론

        본 논문에서는 FSSS(Fully Supervised Semantic Segmentation)와 WSSS(Weakly Supervised Semantic Segmentation) 간의 감독 격차를 줄이기 위해 이미지 수준 레이블을 활용하는 Puzzle-CAM 알고리즘을 제안합니다. 일관된 CAM을 생성하는 네트워크를 개선하기 위해 퍼즐 모듈을 설계하고 재구성 정규화를 사용하여 로컬 및 글로벌 기능을 일치시킵니다. Puzzle-CAM은 로컬 타일 패치에서 일관되게 기능을 생성할 뿐만 아니라 실측 주석 마스크의 모양에 더 잘 적응합니다. 합성된 픽셀 수준 의사 레이블을 사용하여 훈련된 분할 네트워크는 PASCAL VOC 2012 데이터 세트에서 최첨단 성능을 달성하여 접근 방식의 효율성을 입증합니다. 우리는 훈련 모듈로서 Puzzle-CAM의 개념이 일반화될 수 있으며 의미론적 분할 및 인스턴스 분할과 같은 약한 지도 및 반지도 작업에 도움이 될 것이라고 믿습니다.

Supongo que te gusta

Origin blog.csdn.net/ADICDFHL/article/details/131998783
Recomendado
Clasificación