비교 학습에 대한 검토

비교 학습에 대한 검토

숨겨진 숨겨진 임베딩 기능은 기능을 의미합니다.

첫 번째 단계

InstDisc(2018,메모리 뱅크)

비모수적 인스턴스 디스크 제거를 통한 비지 기능 학습

img

기여:

  1. 상담원 작업 제안: 개인

  2. 차별(각 사진을 하나의 카테고리로 간주, 긍정: 사진 자체, 부정: 다른 사진)

  3. 메모리 뱅크는 네거티브 샘플을 저장합니다. 각 사진의 마지막 mb 특성은 128차원입니다(크기가 너무 커서 저장할 수 없음).

    ImageNet 데이터 세트의 경우 총 128만 개의 이미지가 있으며 메모리 뱅크는 1280000*128 데이터 매트릭스이며 4096개의 네거티브 샘플이 무작위로 선택됩니다.

    배치 크기가 256이라고 가정하면, 즉 256개의 positive 샘플과 4096개의 negative 샘플이 채취된다고 가정하면 NCEloss는 loss로 계산되며, 계산 후 이 배치의 특성은 Memory Bank의 특성으로 대체될 수 있습니다.

  4. Momentum 기반의 모델 매개변수 업데이트 방법 제안(Proximal Regularization: 모델 훈련에 제약 조건을 추가하고 후속 MoCo 아이디어도 이에 부합)

실험 설정:

img

이후의 MoCo 실험 설정은 InstDisc와 동일합니다.

InvaSpread(CVPR, 2019, 엔드투엔드, 배치 크기가 너무 작음)

불변확산 인스턴스 기능을 통한 비지도 임베딩 학습

https://i0.hdslb.com/bfs/note/fd618b06c332626cf4dc4cf9f4cd0c7d52542511.png@690w_!web-note.webp

유사한 그림이 인코더를 통과한 후 특징은 유사(Invariant)되고, 서로 다른 그림의 특징은 유사하지 않습니다(spreading).

에이전트 작업: 개인 차별

기여:

img

  1. 위 그림에 표시된 대로 배치 크기256, 데이터 향상 후 x1 , x2 , X3^, 양성 샘플: 256, 음성 샘플: (256-1)*2, 엔드투엔드 학습을 위해 하나의 인코더를 사용할 수 있습니다.
  2. 양성 샘플을 제공하는 데 외부 데이터가 필요하지 않습니다.

결과가 충분하지 않은 이유는 사전이 충분히 크지 않아 부정적인 샘플이 충분하지 않고 데이터 증가가 충분하지 않으며 mlp 프로젝터가 없기 때문입니다.

CPCv1(2019,InfoNCE 손실)

대조 예측 코딩통한 표현 학습

img

오디오뿐만 아니라 텍스트, 이미지까지 처리할 수 있어 강화학습에 활용될 수 있습니다.

gar: 자동 회귀, RNN, LSTM

Ct (컨텍스트 표현)를 사용하여 미래 출력(Zt+1 등)을 예측할 수 있습니다.

에이전트 작업:

긍정적인 샘플: 미래 순간의 genc 특성 출력은 ct의 예측(쿼리)과 유사합니다.

음성 샘플: 언제든지 genc의 특성 출력을 선택할 수 있으며 이는 ct의 예측과 유사하지 않습니다.

CMC(멀티뷰 멀티모달)

대조 멀티코딩 _ _

사물의 다중 시점은 긍정적인 표본으로 간주될 수 있다

단점은 너무 많은 인코더가 필요하다는 것입니다.

다중 관점 작업을 아주 일찍 수행하는 것은 대조 학습의 유연성을 입증할 뿐만 아니라 이러한 종류의 다중 관점 및 다중 양식의 실현 가능성도 입증합니다.

추상적인:

사람들은 다양한 센서를 통해 세상을 관찰하는데, 예를 들어 눈이나 귀는 서로 다른 센서로 작용하여 뇌에 서로 다른 신호를 전달합니다. 각 관점은 시끄럽고 불완전할 수 있지만 기본 물리 법칙, 기하학적 모양 또는 음성 정보와 같은 가장 중요한 정보는 실제로 이러한 모든 관점에서 공유됩니다. 펠트.

관점에 따라 변하지 않는 매우 강력한 기능을 학습합니다(어떤 관점에서 보든, 개가 보이든 개가 짖는 소리를 듣든 개라는 것을 알 수 있습니다).

학습 목표: 모든 관점 간의 상호 정보 증가

img

데이터 세트 선택: NYU RGBD, 4가지 보기: 원본 이미지, 깊이 정보, 표면 법선, 분할된 이미지

모든 입력은 하나의 그림에 해당하며 서로는 긍정적인 샘플입니다.

여러 유형의 입력(CLIP)을 처리하려면 여러 인코더가 필요할 수 있음

증류: 교사와 학생이 양성 샘플 쌍을 만듭니다.

요약하다:

에이전트 작업: 인스턴스 식별, 예측, 다중 보기, 다중 모드
목적 기능: NCE, InfoNCE 및 기타 변형
모델 아키텍처:

  1. 인코더 + 메모리 뱅크(Inst Disc);
  2. 인코더(불변 확산);
  3. 인코더 + 자동 회귀(CPC)
  4. 다중 인코더(CMC)

작업 유형: 이미지, 오디오, 텍스트, 강화 학습 등

두 번째 단계:

MoCov1(CVPR2020)

비지도 시각적 표현 학습을 위한 모멘텀 대비

img

내 이전 블로그: https://blog.csdn.net/qq_52038588/article/details/130857141?spm=1001.2014.3001.5502

글쓰기 방법: 문제를 요약하고, 범위를 확장하고, 위에서(크게) 아래로 작성하고, 보편적인 방식으로 작성합니다.

SimCLRv1(ICML,2020.2.13)

시각적 표현대조 학습 을 위한 간단한 프레임 워크

img

훈련 과정:

x->xi, xj (데이터 향상, 서로는 양성 샘플임)->인코더 f ( ⋅ ) f(\cdot)f ( ) -> 프로젝터g ( ⋅ ) g(\cdot)g ( ) -> 특징 z

양성 샘플: 2, 음성 샘플: 2*(배치 크기-1)

인코더 f ( ⋅ ) f(\cdot)f ( ) 공유 가중치

InfoNCE 손실과 유사한 표준화된 온도 규모

기여:(트릭)

  1. 더욱 강력한 데이터 향상

    img

    데이터 향상을 위한 절제 실험은 다음과 같습니다. 자르기와 색상이 유용합니다.

    여기에 이미지 설명을 삽입하세요.

  2. MLP 헤드 차원 축소(2048->128), 즉 투영 헤드 g( ⋅ ) g(\cdot) 가 추가됩니다.g ( ) , 훈련에만 사용되며 다운스트림 작업에는 사용되지 않음

    g ( ⋅ ) g(\cdot)g ( ) : 완전 연결 계층 및 ReLu 활성화 함수

    img선형: ReLU가 없는 프로젝션 헤드

    비선형: 전체 영사 헤드

    없음: 영사 헤드 없음

  3. 장기간에 걸친 대규모 배치 훈련

MoCov2 (2020.3.9, 기술보고서)

Momentum Contrastive Learning으로 기준선 개선

img

개선하다:

  1. mlp 추가

  2. 8월 추가

  3. 코사인 학습률 일정 추가(위 표에 따르면 0.2씩 증가, 많이는 아님)

    코사인 학습률 일정:여기에 이미지 설명을 삽입하세요.

    초기 학습률은 lr=10^-3입니다.

    총 100 에포크라면 마지막 60 에포크만 코사인 학습률 감쇠를 적용하는데 사용되며, 처음 40 에포크는 코사인으로 계산되지 않으며, 처음 40 에포크의 학습률은 lr1=epoch/40* 입니다. lr이면 마지막 60개 에포크는 0.5 * (math.cos(40/100) * math.pi) + 1)에 적용 가능합니다.

    최종적으로 계산된 학습률은 2.5x10^-4입니다.

  4. 에포크가 더 깁니다(200->800, MAE는 1600 에포크를 사용함)

    8 V100

SimCLRv2(신경 IPS,2020)

큰 자기 지도 모델은 강력한 반 지도 학습자입니다

Google의 시끄러운 학생(Noise Student)의 작업에서 영감을 얻었습니다(먼저 교사 모델을 훈련하고, 데이터 세트에서 의사 레이블을 생성하고, 레이블이 지정되지 않은 더 많은 데이터에 대해 학생 모델을 함께 훈련, 당시 SOTA)

img

주요 개선 사항:

  1. 더 큰 모델(비지도형이 더 좋음), 백본 네트워크를 ResNet-50에서 ResNet-152로 변경하고 3배 더 넓은 채널 폭과 선택적 커널(SK)탑재
  2. 영사 헤드를 MLP 한 레이어에서 MLP 두 레이어로 변경합니다. 레이어 3에서는 거의 개선되지 않습니다.
  3. 운동량 인코더를 사용하여 mocov2에 의해 동기를 부여받은 배치4096은 이미 크고 사전도 충분히 큽니다.

SWAV

클러스터 할당을 대조하여 시각적 기능의 비지도 학습

할당 보기 교환

먼저 딥 클러스터를 읽고 이전 작업을 수행하는 것이 좋습니다.

img

왼쪽의 장점은 원시적이고 자원 집약적입니다.

SwAV는 음성 샘플을 사용하지 않고 사전 정보에 의존하며 비교를 위해 클러스터 중심 c (프로토타입)를 사용합니다.

D: 특징 차원, K: 클러스터 중심 수(3000)

z1, z2는 먼저 클러스터링 방법을 사용하여 z와 c가 대상 q1 및 q2(GT)를 생성하도록 합니다.

에이전트 작업:

z1과 z2는 유사해야 하며 서로 예측할 수 있으며 z1과 c의 내적은 Q2를 예측하거나 z2와 c의 내적은 Q1을 예측합니다.

클러스터링 사용의 이점:

  • 각각의 인스턴스형 네거티브 샘플과 비교한다면 수천 개의 네거티브 샘플이 필요하며 이마저도 근사치에 불과하며, 반대로 클러스터 센터와 비교한다면 ImageNet 클러스터 센터에서는 수백~최대 3000개를 사용하면 충분하다.
  • 군집 중심에는 명확한 의미가 있으며, 일부 양성 표본도 샘플링되고 표본 범주의 불균형이 발생하는 등의 문제가 발생하는 인스턴스형 음성 표본의 무작위 샘플링과 비교할 때 군집 중심을 사용하는 것만큼 효과적이지 않습니다.

여기에 이미지 설명을 삽입하세요.

중요한 비결: 여러 작물

원본 256*256 사진은 두 개의 224*224 사진에서 촬영되어 글로벌 특성을 학습합니다.

향상된 2*160*160+4*96*96, 6가지 시야각

CPCV2(ICML 2020)

대비 예측 코딩통한 데이터 효율적인 이미지 인식

  1. 더 큰 모델을 사용하면 CPC v1은 ResNet-101의 처음 3개 잔여 스택만 사용하고 CPC v2는 모델을 ResNet-161(ImageNet 상위 1 정확도가 5% 증가)로 심화시키는 동시에 입력 이미지 패치 해상도(에서)를 향상 시킵니다 . 60x60에서 80x80으로, ImageNet 상위 1 정확도가 2% 증가했습니다.
  2. CPC v1의 예측은 여러 패치에만 관련되어 있고 BN은 이미지 생성과 유사하게 다른 패치의 정보를 도입 하므로 BN 알고리즘은 CPC v1의 성능을 손상시킵니다. BN을 LN으로 대체하면 ImageNet top-1 정확도가 높아집니다. 2%씩.
  3. 큰 모델일수록 overfitting 가능성이 높기 때문에 저자는 self-supervised task의 난이도를 높였으며, 패치를 예측하기 위해 CPC v2는 상하좌우 4방향의 특징 벡터를 사용하는 반면 CPC v1은 4방향의 특징 벡터만 사용합니다. 상위 특징 벡터. CPC v2는 더 많은 의미 정보를 노출하기 때문에, 아래 패치와 관련된 의미 정보를 추출하기가 더 어려울 것입니다. ImageNet 상위 1위 정확도가 2.5% 증가했습니다.
  4. 더 나은 데이터 향상을 사용하여 먼저 3개의 RGB 채널 중 2개를 무작위로 추출 하고 ImageNet 상위 1 정확도가 3% 증가한 다음 일부 형상, 색상, 탄성 변형 및 기타 데이터 향상이 적용되고 ImageNet 상위 1개 채널이 향상 됩니다. 1 정확도가 4.5.% 증가하여 데이터 강화가 자기 감독에 큰 영향을 미치는 것을 알 수 있습니다.

여기에 이미지 설명을 삽입하세요.

InfoMin (NeurIPS,2020)

대조 학습을 위한 좋은 보기를 만드는 방법

주로 분석 확장 작업, 상호 정보 최소화. 요점은 적절한 상호 정보가 중요하다는 것입니다

새로운 InfoMin 원칙이 제안되었습니다. 그 목적은 특징 표현이 서로 다른 뷰 간에 공유되는 정보를 학습하도록 하고, 학습된 특징 표현이 좋은 일반화 능력을 갖도록 보장하기 위해 다운스트림 작업과 관련 없는 중복 정보를 제거하는 것입니다.

세 번째 단계: 음성 샘플 없음

BYOL(2020) - Negative Sample 없이도 학습 가능

자신만의 잠재성을 부트스트랩: 자기 지도 학습에 대한 새로운 접근 방식

img

x->v, v^->인코더 아키텍처는 동일하지만 매개변수가 다릅니다. ftheta는 그래디언트 업데이트로 업데이트됩니다. 다음은 모멘텀 인코더->프로젝터-> qtheta 예측 예측과 목표를 최대한 유사하게 사용 합니다 .

서로 다른 관점의 특징은 다른 관점의 특징을 예측하고 인코더만 남깁니다.

목적 함수: MSE LOSS

img

블로그에 대한 응답(BN은 BYOL 암시적 부정 샘플 제공):

여기에 이미지 설명을 삽입하세요.

  1. BN이 있어도 프로젝터만 훈련할 수 없습니다.
  2. 정규화가 없으면 SimCLR은 음성 샘플로도 훈련될 수 없습니다.

BYOL의 저자는 BN이 훈련에 안정적이라고 믿고 초기화가 더 좋고 BN 없이도 훈련을 할 수 있다고 제안합니다. GN(그룹 표준)과 WS(가중치 표준화)를 사용하면 이 BYOL 버전도 잘 학습할 수 있습니다.

SimSiam(CVPR2021, 최종 작업, 대규모 배치 크기 없음, 모멘텀 인코더 없음, 네거티브 샘플 없음)

간단한 샴 표현 학습 탐색

img

인코더 아키텍처는 동일한 방식으로 매개변수를 공유합니다.

img

의사코드에는 그림과 일치하지 않는 z1과 z2를 각각 예측하는 두 개의 예측변수가 있습니다.

D에서 계산된 것은 MSEloss입니다.

Stop Gradient는 매우 중요하며 EM 알고리즘으로 간주할 수 있으며 붕괴를 피하기 위해 매개변수를 점진적으로 업데이트합니다.

모든 트윈 네트워크:

img

img

다중 자르기가 없으면 SWAV가 MoCov2만큼 좋지 않다는 것을 알 수 있습니다.

바로우 트윈스(ICML 2021)

Barlow Twins: 중복 감소를 통한 자기 지도 학습

비교도 예측도 없으며 기본적으로 다른 목적함수를 사용합니다.

구체적으로는 행렬이 항등행렬과 최대한 유사해지기를 바라면서 상호상관행렬(Cross Correlation Matrix)을 생성하는 것이다.

4단계: Transformer 기반

MoCov3(CVPR,2021)

자기 감독 비전 변환기 훈련에 대한 실증적 연구

VIT 훈련은 다음과 같이 배치 크기가 증가함에 따라 불안정해집니다.

img

장난:

패치 프로젝션 레이어를 무작위로 초기화하고 고정합니다. 즉, MLP를 무작위로 초기화하고 고정합니다. BYOL에도 유용합니다.

img

디노

자가 감독형 비전 변환기의 새로운 속성

Teacher 네트워크 출력은 정규화됩니다(중심화, 평균 빼기).

img

의사코드는 MoCoV3와 유사하며 목적함수는 중심연산을 갖는다.

img

다음은 MAE

요약하다

여기에 이미지 설명을 삽입하세요.

참고:

1. 블로그.https://www.bilibili.com/read/cv24218439?spm_id_from=333.999.0.0&jump_opus=1

2. 비디오.https://www.bilibili.com/video/BV19S4y1M7hm/?spm_id_from=333.999.0.0&vd_source=4e2df178682eb78a7ad1cc398e6e154d

3. 블로그.https://blog.csdn.net/dhaiuda/article/details/117870030

Ich denke du magst

Origin blog.csdn.net/qq_52038588/article/details/131733727
Empfohlen
Rangfolge