[논문] Data Enhancement Series.1

이 문서에서는 간단한 데이터 향상, 이점 및 일반적인 향상 방법을 소개하고 데이터 향상에 대한 몇 가지 작업도 소개합니다.

CutMix (ICCV2019), ContrastMask (CVPR2022), BCP (CVPR2023).

데이터 증강 소개 및 이점

데이터 증대란 무엇입니까?

데이터 증대는 기존 데이터에서 새로운 교육 데이터를 생성하여 원본 데이터 세트를 증대시키는 딥 러닝 기술입니다. 데이터 증대 도구는 기존 데이터의 매개변수를 조작하여 데이터를 새롭고 고유한 샘플로 변환합니다. 이미지, 텍스트, 오디오 및 비디오 입력에 대해 데이터 증대를 수행할 수 있습니다. 데이터 증대에는 두 가지 유형이 있습니다. 오프라인(증강 이미지는 드라이브에 저장한 다음 모델을 교육하기 전에 실제 데이터와 결합)과 온라인(데이터 확대는 무작위로 선택한 이미지에 적용되어 원본 데이터를 교육하는 데 사용됨)입니다.

데이터 증대의 이점은 무엇입니까?

데이터 증대를 적절하게 사용하면 다음과 같은 이점을 얻을 수 있습니다.

  • 데이터 수집 및 데이터 라벨링 비용을 줄입니다.
  • 모델에 더 많은 다양성과 유연성을 제공하여 모델 일반화를 개선합니다.
  • 모델을 교육하는 데 더 많은 데이터를 사용하므로 예측에서 모델의 정확도가 향상됩니다.
  • 데이터의 과적합을 줄입니다.
  • 소수 클래스의 샘플 수를 늘려 데이터 세트의 불균형을 처리합니다.

일반적인 데이터 향상 방법:

데이터 향상 방법에 대한 자세한 내용은 다음 블로그를 참조하십시오.

deep learning_m0_61899108's Blog-CSDN Blog의 다양한 데이터 향상

자동 데이터 강화 방법(코드 포함)_데이터 강화 코드_m0_61899108의 블로그-CSDN 블로그

데이터강화의 방법은 여러가지가 있고 알고리즘은 어렵지 않으나 이해하는 방법, 방법의 이유와 목적(동기), 방법이 단순하고 효과적인지, 작업과의 연관성은 어떠한지, 좋은 이야기를 하는 방법.

CutMix: 지역화 가능한 기능으로 강력한 분류자를 교육하기 위한 정규화 전략, ICCV 2019

논문: https://arxiv.org/abs/1905.04899

코드: https://github.com/clovaai/CutMix-PyTorch

몇 가지 일반적인 데이터 개선 사항 비교:

  • Mixup : 두 개의 랜덤 샘플을 비율에 따라 혼합하고 분류 결과는 비율에 따라 분포됩니다.
  • Cutout : 샘플의 일부 영역을 임의로 잘라내고 0픽셀 값을 채우면 분류 결과가 변경되지 않습니다.
  • CutMix : 영역의 일부를 잘라내어 0픽셀을 채우지 않고 training set에 있는 다른 데이터의 영역 픽셀 값을 무작위로 채우고, 분류 결과를 일정한 비율에 따라 분포시키는 것이다.

 위의 세 가지 데이터 향상 간의 차이점:

  • 컷 아웃과 컷 믹스는 채워진 영역의 픽셀 값 간의 차이입니다.
  • mixup과 cutmix는 두 샘플을 혼합하는 방식의 차이입니다.
  • mixup은 혼합 샘플에 비례하여 두 개의 이미지를 보간하는 것이고, cutmix는 이미지 혼합 후 부자연스러운 상황이 없도록 잘라낸 부분과 패치 형태로 이미지를 혼합하는 것입니다.

컷믹스의 장점:

  • 교육 과정 중에 비정보 픽셀이 표시되지 않아 교육 효율성이 향상될 수 있습니다.
  • 그것은 지역 탈락의 장점을 유지하고 대상의 비 차별적 부분에 집중할 수 있습니다.
  • 모델이 부분 보기에서 물체를 인식하도록 요구하고 다른 샘플의 정보를 절단 영역에 추가함으로써 모델의 위치 지정 능력을 더욱 향상시킬 수 있습니다.
  • 이미지 혼합 후 부자연스러운 상황이 발생하지 않아 모델 분류 성능을 향상시킬 수 있습니다.
  • 교육 및 추론 비용은 동일하게 유지됩니다.

연산:

 

의사 코드: 

실험:

 

ContrastMask: 모든 것을 분할하는 대조 학습, CVPR2022

논문: https://arxiv.org/abs/2203.09775

코드: https://github.com/huiserwang/ContrastMask

부분 감독 인스턴스 분할 은 주석 마스크가 있는 제한된 기본 범주 집합을 학습하여 새로운 범주에서 객체를 분할 해야 하는 작업으로 무거운 주석 부담을 제거합니다. 이 작업을 해결하는 열쇠는 클래스에 구애받지 않는 효율적인 마스크 분할 모델을 구축하는 것 입니다 . 이러한 모델을 기본 범주에서만 학습하는 기존 방법과 달리 본 논문에서는 통합된 픽셀 수준의 대비 학습 프레임워크 하에서 기본 범주와 새 범주 에 대한 마스크를 학습하는 ContrastMask 라는 새로운 방법을 제안합니다 . 이 프레임워크에서 기본 클래스의 주석 마스크와 새로운 클래스의 의사 마스크는 대조 학습을 위한 우선 순위로 사용되며, 여기에서 마스킹된 영역(전경)의 기능이 함께 당겨지고 배경의 기능과 대조되며 그 반대의 경우도 마찬가지입니다. (인스턴스의 전경과 배경의 픽셀 사이의 쿼리와 키를 샘플링한 다음 전경-배경 사이의 거리를 줄이고 전경-전경 또는 배경-배경 사이의 거리를 단축) 이 프레임워크를 통해 전경과 배경이 크게 개선되어 클래스에 구애받지 않는 마스크 분할 모델의 학습을 용이하게 하는 기능 구별. COCO 데이터 세트에서 좋은 결과를 얻었습니다.

이 백서에서는 통합된 픽셀 단위 대조 학습 프레임워크에서 기본 범주와 새로운 범주 모두에 대해 클래스에 구애받지 않는 마스크 분할 모델을 학습하는 새로운 부분 감독 인스턴스 분할 접근 방식인 ContrastMask를 제안합니다. 이 프레임워크에서 새로운 쿼리 공유 픽셀 수준 대조 손실은 모든 범주의 데이터를 완전히 활용하도록 설계되었습니다. 이를 위해 CAM(Class Activation Mapping)에 의해 계산된 기본 범주의 주석 마스크 또는 새 범주의 의사 마스크는 전경과 배경의 분리뿐만 아니라 공유 쿼리, 긍정 및 부정 비밀을 나타내는 영역 우선 순위로 사용됩니다. . 대신, 기본 및 새로운 범주를 모두 포함하는 훈련 이미지 배치가 주어지면 주석 마스크 및 더미 마스크를 포함하여 마스킹된 영역 내부 및 외부의 기능을 평균화하여 얻은 전경 쿼리 및 배경 쿼리라는 두 가지 공유 쿼리가 설정됩니다. 그런 다음 적절한 키를 선택하기 위해 특별한 샘플링 전략이 구현됩니다. 제안된 손실을 도입함으로써 마스크된 영역 내부/외부의 키를 전경/배경 공유 쿼리로 끌어오고 이를 마스크된 영역 외부/내부의 키와 대조할 것으로 예상합니다. 마지막으로, 픽셀 수준의 대조 학습 프레임워크에서 학습한 기능은 클래스에 구애받지 않는 마스크 헤드에 융합되어 마스크 분할을 수행합니다.

이전 방법과 비교할 때 ContrastMask에는 몇 가지 이점이 있습니다.

  • 훈련 데이터를 최대한 활용하므로 새 범주의 훈련 데이터도 세분화 모델의 최적화 프로세스에 기여합니다.
  • 더 중요한 것은 통합된 픽셀 수준의 대조 학습 프레임워크, 특히 기본 범주와 새 범주의 공유 쿼리를 통해 기본 범주의 세분화 능력을 새로운 범주로 이전하는 브리지를 구축하여 기본 범주를 지속적으로 개선합니다. 카테고리와 소설 카테고리 카테고리의 전경과 배경의 특징적인 구분.

프레임워크: ContrastMask는 CL 헤드라는 추가 "대조 학습" 헤드가 있는 고전적인 2단계 Mask R-CNN 아키텍처를 기반으로 구축되어 기본 범주와 새 범주 모두에서 통합 픽셀 수준의 대조 학습을 수행합니다. CL Head는 Box Head에서 생성된 RoI 기능 맵과 CAM을 입력으로 사용합니다. 이것은 픽셀 단위의 대조 손실에 의해 감독되고 마스크 헤드의 증강된 특징 맵을 출력합니다. 마지막으로 Mask Head는 융합된 특징 맵을 입력에 구애받지 않는 세분화 맵으로 사용하여 클래스를 예측합니다.

Contrastive Learning Head(CL Head): CL Head의 목표는 전경과 배경 간의 특징 구분을 높이고 기본 범주와 새 범주의 각 영역(배경 또는 전경) 내 특징 차이를 줄여 Mask에 기여하는 것입니다. 헤드 스터디. 이것은 새로운 픽셀 수준의 대조 손실을 학습함으로써 달성됩니다.

그림 3. 인코더와 프로젝터로 구성된 대비 학습 헤드(CL 헤드)의 흐름도, 픽셀별 대비 손실로 감독됨. 대조 손실은 실제 레이블 마스크(기본 마스크인 경우) 또는 CAM에서 변환된 가짜 마스크(신규 마스크인 경우)를 사용하여 계산됩니다.

쿼리 공유 픽셀 수준 대비 손실: 통합 대비 학습 프레임워크에서 기본 범주 및 새 범주에 대한 마스크 분할 모델을 학습할 수 있는 새로운 픽셀 수준 손실입니다. 이 손실 함수의 핵심 설계 아이디어는 기본 범주와 새 범주가 두 개의 범주 독립적인 쿼리를 공유한다는 것입니다. 새 카테고리로 이전됩니다.

그림 4. 쿼리 및 예제 키를 얻는 방법을 보여주는 다이어그램. 기본 범주의 경우 세분화를 위해 실측 마스크를 사용하고 에지를 추출하여 샘플링 하드 키를 안내합니다. 새 클래스의 경우 먼저 CAM을 임계값 δ로 이진화한 다음 파티션을 나누고 파티션을 기반으로 쉽고 어려운 키를 무작위로 샘플링합니다. 포그라운드 쿼리 q+ 및 백그라운드 쿼리 q-는 객체 배치에 의해 제안된 해당 파티션의 특징을 평균화하여 얻습니다.

 

 클래스에 구애받지 않는 마스크 헤드: 마스크 헤드의 아키텍처 및 해당 손실 함수는 세 가지 수정 사항을 제외하고 마스크 R-CNN의 것과 동일합니다. 1) 마지막 컨볼루션 레이어의 출력 채널을 80에서 1로 변경하여 결과 클래스에 구애받지 않는 마스크 헤더. 2) CL 헤드의 출력 특징 맵을 마스크 헤드의 입력 특징 맵과 연결하여 마스크 헤드의 입력 특징을 더욱 고유하게 만들고 학습을 용이하게 합니다. 3) CAM을 사용하여 마스크 헤드에 초점을 맞출 영역을 알려줍니다. 이는 입력 기능 맵에 CAM을 추가하여 쉽게 달성할 수 있습니다.

그림 5. 클래스에 구애받지 않는 마스크 헤더의 입력은 향상된 기능 맵 Y, RoI 기능 맵 X 및 CAM A로 구성됩니다.

 실험:

 

준감독 의료 영상 분할을 위한 양방향 복사-붙여넣기, CVPR2023

논문: https://arxiv.org/abs/2305.00673

코드: https://github.com/DeepMed-Lab-ECNU/BCP

준지도 의료 영상 분할에서는 레이블이 지정된 데이터 분포와 레이블이 지정되지 않은 데이터 분포 사이에 경험적 불일치 문제가 있습니다. 레이블이 지정된 데이터와 레이블이 지정되지 않은 데이터를 별도로 처리하거나 일관성 없는 방식으로 처리하면 레이블이 지정된 데이터에서 학습한 지식이 대부분 폐기될 수 있습니다.

이 백서에서는 이 문제를 완화하기 위한 간단한 접근 방식을 제안합니다. 즉, 간단한 Mean Teacher 아키텍처에서 레이블이 지정된 데이터와 레이블이 지정되지 않은 데이터를 양방향으로 복사하여 붙여넣는 것입니다. 이 방법은 레이블이 지정되지 않은 데이터가 레이블이 지정된 데이터에서 내부 및 외부의 포괄적인 일반 의미를 학습하도록 권장합니다. 더 중요한 것은 레이블이 지정된 데이터와 레이블이 지정되지 않은 데이터의 일관된 학습 프로세스가 경험적 분포 격차를 크게 좁힐 수 있다는 것입니다.

구체적으로, 무작위 크롭은 레이블이 지정된 이미지(전경)에서 레이블이 지정되지 않은 이미지(배경) 및 레이블이 지정되지 않은 이미지에 각각 복사 붙여넣기됩니다. 이 두 혼합 이미지는 학생 네트워크에 공급되고 의사 레이블과 실제 레이블의 혼합 감독 신호로 감독됩니다. 이 논문은 레이블이 지정된 데이터와 레이블이 지정되지 않은 데이터 사이의 양방향 복사-붙여넣기를 위한 간단한 메커니즘이 충분히 잘 작동하고 다양한 준지도 의료 이미지 분할 데이터 세트에서 다른 최첨단 기술과 비교하여 상당한 실험적 이점을 보여준다는 것을 발견했습니다.

그림 1. 준지도 학습 설정에서 불일치 문제의 그림. 트레이닝 세트가 (a)의 잠재 분포에서 추출되었다고 가정합니다. 그러나 레이블이 지정된 데이터가 적은 경우와 레이블이 지정되지 않은 데이터가 많은 경우의 경험적 분포는 각각 (b)와 (c)입니다. 레이블이 지정된 데이터를 거의 사용하지 않고 전체 데이터 세트의 정확한 분포를 구성하는 것은 어렵습니다. (d) BCP를 사용하면 레이블이 지정된 기능과 레이블이 지정되지 않은 기능의 경험적 분포가 일관됩니다. (e) SSNet[35] 또는 레이블이 지정되지 않은 교차 ​​데이터 복사-붙여넣기와 같은 다른 방법은 경험적 분포 불일치를 해결할 수 없습니다. 모든 분포는 심근 클래스에 속하는 ACDC의 복셀의 커널 밀도 추정치입니다. 

 

준지도 의료 영상 분할에서 레이블이 지정된 데이터와 레이블이 지정되지 않은 데이터는 동일한 분포에서 나옵니다(그림 1(a)). 그러나 현실 세계에서는 레이블이 지정된 데이터의 수가 적기 때문에 정확한 분포를 추정하기 어렵습니다. 따라서 많은 양의 레이블이 지정되지 않은 데이터와 매우 적은 양의 레이블이 지정된 데이터 사이에는 경험적 분포 불일치가 항상 존재합니다(그림 1(b) 및 (c)). Semi-supervised segmentation 방법은 항상 레이블이 지정된 데이터와 레이블이 지정되지 않은 데이터를 일관된 방식으로 대칭적으로 훈련하려고 합니다. 그러나 대부분의 기존 반지도 방식은 서로 다른 학습 패러다임에서 레이블이 지정된 데이터와 레이블이 지정되지 않은 데이터를 사용합니다. 따라서 레이블이 지정된 데이터와 레이블이 지정되지 않은 데이터 간의 경험적 분포가 일치하지 않을 뿐만 아니라 레이블이 지정된 데이터에서 학습한 많은 양의 지식을 폐기하는 경우가 많습니다(그림 1(e)).

레이블이 지정된 데이터와 레이블이 지정되지 않은 데이터 사이의 경험적 불일치 문제를 완화하기 위해 성공적인 설계는 레이블이 지정되지 않은 데이터가 레이블이 지정된 데이터에서 포괄적인 공통성을 학습하도록 장려하는 동시에 레이블이 지정된 데이터와 레이블이 지정되지 않은 데이터에 대한 일관된 학습 전략을 통해 분포를 정렬하는 것입니다. 이 논문은 Mean Teacher 프레임워크에서 인스턴스화된 단순하지만 매우 효과적인 양방향 복사-붙여넣기(BCP) 방법을 제안하여 이를 달성합니다. 구체적으로, 학생 네트워크를 훈련시키기 위해 레이블이 지정된 이미지(전경)에서 레이블이 지정되지 않은 이미지(배경)에 무작위 자르기를 복사하여 붙여넣고 레이블이 지정되지 않은 이미지(전경)에서 레이블이 지정된 이미지에 무작위 자르기를 복사하여 붙여넣어 입력을 보강합니다. 배경). 학생 네트워크는 교사 네트워크의 레이블이 지정되지 않은 이미지에 대한 의사 레이블과 레이블이 지정된 이미지에 대한 레이블 맵 사이의 양방향 복사-붙여넣기를 통해 생성된 감독 신호에 의해 감독됩니다. 이 두 혼합 이미지는 네트워크가 레이블이 지정된 데이터와 레이블이 지정되지 않은 데이터 사이의 공통 의미 체계를 양방향 및 대칭적으로 학습하는 데 도움이 됩니다.

액자:

이미지 3. 더 나은 시각화를 위해 2D 입력 이미지를 사용하는 Mean Teacher 아키텍처의 양방향 복사-붙여넣기 프레임워크 개요. 학생 네트워크에 대한 입력은 제안된 양방향 복사-붙여넣기 방식으로 레이블이 지정된 두 개의 이미지와 레이블이 지정되지 않은 두 개의 이미지를 혼합하여 생성됩니다. 그런 다음 학생 네트워크에 감독 신호를 제공하기 위해 교사 네트워크에서 생성된 실제 및 의사 레이블을 동일한 양방향 복사-붙여넣기로 하나의 감독 신호로 결합하여 실제 레이블에서 강력한 감독을 달성하고 의사 네트워크에서 약한 감독을 돕습니다. 라벨.

프로세스 설명: 

 

연산:

 

 

 

 

실험:

Supongo que te gusta

Origin blog.csdn.net/m0_61899108/article/details/130702251
Recomendado
Clasificación