비교 학습에 대한 검토
숨겨진 숨겨진 임베딩 기능은 기능을 의미합니다.
첫 번째 단계
InstDisc(2018,메모리 뱅크)
비모수적 인스턴스 디스크 제거를 통한 비지 도 기능 학습
기여:
-
상담원 작업 제안: 개인
-
차별(각 사진을 하나의 카테고리로 간주, 긍정: 사진 자체, 부정: 다른 사진)
-
메모리 뱅크는 네거티브 샘플을 저장합니다. 각 사진의 마지막 mb 특성은 128차원입니다(크기가 너무 커서 저장할 수 없음).
ImageNet 데이터 세트의 경우 총 128만 개의 이미지가 있으며 메모리 뱅크는 1280000*128 데이터 매트릭스이며 4096개의 네거티브 샘플이 무작위로 선택됩니다.
배치 크기가 256이라고 가정하면, 즉 256개의 positive 샘플과 4096개의 negative 샘플이 채취된다고 가정하면 NCEloss는 loss로 계산되며, 계산 후 이 배치의 특성은 Memory Bank의 특성으로 대체될 수 있습니다.
-
Momentum 기반의 모델 매개변수 업데이트 방법 제안(Proximal Regularization: 모델 훈련에 제약 조건을 추가하고 후속 MoCo 아이디어도 이에 부합)
실험 설정:
이후의 MoCo 실험 설정은 InstDisc와 동일합니다.
InvaSpread(CVPR, 2019, 엔드투엔드, 배치 크기가 너무 작음)
불변 및 확산 인스턴스 기능을 통한 비지도 임베딩 학습
유사한 그림이 인코더를 통과한 후 특징은 유사(Invariant)되고, 서로 다른 그림의 특징은 유사하지 않습니다(spreading).
에이전트 작업: 개인 차별
기여:
- 위 그림에 표시된 대로 배치 크기256, 데이터 향상 후 x1 , x2 , X3^, 양성 샘플: 256, 음성 샘플: (256-1)*2, 엔드투엔드 학습을 위해 하나의 인코더를 사용할 수 있습니다.
- 양성 샘플을 제공하는 데 외부 데이터가 필요하지 않습니다.
결과가 충분하지 않은 이유는 사전이 충분히 크지 않아 부정적인 샘플이 충분하지 않고 데이터 증가가 충분하지 않으며 mlp 프로젝터가 없기 때문입니다.
CPCv1(2019,InfoNCE 손실)
대조 예측 코딩 을 통한 표현 학습
오디오뿐만 아니라 텍스트, 이미지까지 처리할 수 있어 강화학습에 활용될 수 있습니다.
gar: 자동 회귀, RNN, LSTM
Ct (컨텍스트 표현)를 사용하여 미래 출력(Zt+1 등)을 예측할 수 있습니다.
에이전트 작업:
긍정적인 샘플: 미래 순간의 genc 특성 출력은 ct의 예측(쿼리)과 유사합니다.
음성 샘플: 언제든지 genc의 특성 출력을 선택할 수 있으며 이는 ct의 예측과 유사하지 않습니다.
CMC(멀티뷰 멀티모달)
대조 멀티 뷰 코딩 _ _
사물의 다중 시점은 긍정적인 표본으로 간주될 수 있다
단점은 너무 많은 인코더가 필요하다는 것입니다.
다중 관점 작업을 아주 일찍 수행하는 것은 대조 학습의 유연성을 입증할 뿐만 아니라 이러한 종류의 다중 관점 및 다중 양식의 실현 가능성도 입증합니다.
추상적인:
사람들은 다양한 센서를 통해 세상을 관찰하는데, 예를 들어 눈이나 귀는 서로 다른 센서로 작용하여 뇌에 서로 다른 신호를 전달합니다. 각 관점은 시끄럽고 불완전할 수 있지만 기본 물리 법칙, 기하학적 모양 또는 음성 정보와 같은 가장 중요한 정보는 실제로 이러한 모든 관점에서 공유됩니다. 펠트.
관점에 따라 변하지 않는 매우 강력한 기능을 학습합니다(어떤 관점에서 보든, 개가 보이든 개가 짖는 소리를 듣든 개라는 것을 알 수 있습니다).
학습 목표: 모든 관점 간의 상호 정보 증가
데이터 세트 선택: NYU RGBD, 4가지 보기: 원본 이미지, 깊이 정보, 표면 법선, 분할된 이미지
모든 입력은 하나의 그림에 해당하며 서로는 긍정적인 샘플입니다.
여러 유형의 입력(CLIP)을 처리하려면 여러 인코더가 필요할 수 있음
증류: 교사와 학생이 양성 샘플 쌍을 만듭니다.
요약하다:
에이전트 작업: 인스턴스 식별, 예측, 다중 보기, 다중 모드
목적 기능: NCE, InfoNCE 및 기타 변형
모델 아키텍처:
- 인코더 + 메모리 뱅크(Inst Disc);
- 인코더(불변 확산);
- 인코더 + 자동 회귀(CPC)
- 다중 인코더(CMC)
작업 유형: 이미지, 오디오, 텍스트, 강화 학습 등
두 번째 단계:
MoCov1(CVPR2020)
비지도 시각적 표현 학습을 위한 모멘텀 대비
내 이전 블로그: https://blog.csdn.net/qq_52038588/article/details/130857141?spm=1001.2014.3001.5502
글쓰기 방법: 문제를 요약하고, 범위를 확장하고, 위에서(크게) 아래로 작성하고, 보편적인 방식으로 작성합니다.
SimCLRv1(ICML,2020.2.13)
시각적 표현 의 대조 학습 을 위한 간단한 프레임 워크
훈련 과정:
x->xi, xj (데이터 향상, 서로는 양성 샘플임)->인코더 f ( ⋅ ) f(\cdot)f ( ⋅ ) -> 프로젝터g ( ⋅ ) g(\cdot)g ( ⋅ ) -> 특징 z
양성 샘플: 2, 음성 샘플: 2*(배치 크기-1)
인코더 f ( ⋅ ) f(\cdot)f ( ⋅ ) 공유 가중치
InfoNCE 손실과 유사한 표준화된 온도 규모
기여:(트릭)
-
더욱 강력한 데이터 향상
데이터 향상을 위한 절제 실험은 다음과 같습니다. 자르기와 색상이 유용합니다.
-
MLP 헤드 차원 축소(2048->128), 즉 투영 헤드 g( ⋅ ) g(\cdot) 가 추가됩니다.g ( ⋅ ) , 훈련에만 사용되며 다운스트림 작업에는 사용되지 않음
g ( ⋅ ) g(\cdot)g ( ⋅ ) : 완전 연결 계층 및 ReLu 활성화 함수
선형: ReLU가 없는 프로젝션 헤드
비선형: 전체 영사 헤드
없음: 영사 헤드 없음
-
장기간에 걸친 대규모 배치 훈련
MoCov2 (2020.3.9, 기술보고서)
Momentum Contrastive Learning으로 기준선 개선
개선하다:
-
mlp 추가
-
8월 추가
-
코사인 학습률 일정 추가(위 표에 따르면 0.2씩 증가, 많이는 아님)
코사인 학습률 일정:
초기 학습률은 lr=10^-3입니다.
총 100 에포크라면 마지막 60 에포크만 코사인 학습률 감쇠를 적용하는데 사용되며, 처음 40 에포크는 코사인으로 계산되지 않으며, 처음 40 에포크의 학습률은 lr1=epoch/40* 입니다. lr이면 마지막 60개 에포크는 0.5 * (math.cos(40/100) * math.pi) + 1)에 적용 가능합니다.
최종적으로 계산된 학습률은 2.5x10^-4입니다.
-
에포크가 더 깁니다(200->800, MAE는 1600 에포크를 사용함)
8 V100
SimCLRv2(신경 IPS,2020)
큰 자기 지도 모델은 강력한 반 지도 학습자입니다
Google의 시끄러운 학생(Noise Student)의 작업에서 영감을 얻었습니다(먼저 교사 모델을 훈련하고, 데이터 세트에서 의사 레이블을 생성하고, 레이블이 지정되지 않은 더 많은 데이터에 대해 학생 모델을 함께 훈련, 당시 SOTA)
주요 개선 사항:
- 더 큰 모델(비지도형이 더 좋음), 백본 네트워크를 ResNet-50에서 ResNet-152로 변경하고 3배 더 넓은 채널 폭과 선택적 커널(SK) 넷 탑재
- 영사 헤드를 MLP 한 레이어에서 MLP 두 레이어로 변경합니다. 레이어 3에서는 거의 개선되지 않습니다.
- 운동량 인코더를 사용하여 mocov2에 의해 동기를 부여받은 배치4096은 이미 크고 사전도 충분히 큽니다.
SWAV
클러스터 할당을 대조하여 시각적 기능의 비지도 학습
할당 보기 교환
먼저 딥 클러스터를 읽고 이전 작업을 수행하는 것이 좋습니다.
왼쪽의 장점은 원시적이고 자원 집약적입니다.
SwAV는 음성 샘플을 사용하지 않고 사전 정보에 의존하며 비교를 위해 클러스터 중심 c (프로토타입)를 사용합니다.
D: 특징 차원, K: 클러스터 중심 수(3000)
z1, z2는 먼저 클러스터링 방법을 사용하여 z와 c가 대상 q1 및 q2(GT)를 생성하도록 합니다.
에이전트 작업:
z1과 z2는 유사해야 하며 서로 예측할 수 있으며 z1과 c의 내적은 Q2를 예측하거나 z2와 c의 내적은 Q1을 예측합니다.
클러스터링 사용의 이점:
- 각각의 인스턴스형 네거티브 샘플과 비교한다면 수천 개의 네거티브 샘플이 필요하며 이마저도 근사치에 불과하며, 반대로 클러스터 센터와 비교한다면 ImageNet 클러스터 센터에서는 수백~최대 3000개를 사용하면 충분하다.
- 군집 중심에는 명확한 의미가 있으며, 일부 양성 표본도 샘플링되고 표본 범주의 불균형이 발생하는 등의 문제가 발생하는 인스턴스형 음성 표본의 무작위 샘플링과 비교할 때 군집 중심을 사용하는 것만큼 효과적이지 않습니다.
중요한 비결: 여러 작물
원본 256*256 사진은 두 개의 224*224 사진에서 촬영되어 글로벌 특성을 학습합니다.
향상된 2*160*160+4*96*96, 6가지 시야각
CPCV2(ICML 2020)
대비 예측 코딩 을 통한 데이터 효율적인 이미지 인식
- 더 큰 모델을 사용하면 CPC v1은 ResNet-101의 처음 3개 잔여 스택만 사용하고 CPC v2는 모델을 ResNet-161(ImageNet 상위 1 정확도가 5% 증가)로 심화시키는 동시에 입력 이미지 패치 해상도(에서)를 향상 시킵니다 . 60x60에서 80x80으로, ImageNet 상위 1 정확도가 2% 증가했습니다.
- CPC v1의 예측은 여러 패치에만 관련되어 있고 BN은 이미지 생성과 유사하게 다른 패치의 정보를 도입 하므로 BN 알고리즘은 CPC v1의 성능을 손상시킵니다. BN을 LN으로 대체하면 ImageNet top-1 정확도가 높아집니다. 2%씩.
- 큰 모델일수록 overfitting 가능성이 높기 때문에 저자는 self-supervised task의 난이도를 높였으며, 패치를 예측하기 위해 CPC v2는 상하좌우 4방향의 특징 벡터를 사용하는 반면 CPC v1은 4방향의 특징 벡터만 사용합니다. 상위 특징 벡터. CPC v2는 더 많은 의미 정보를 노출하기 때문에, 아래 패치와 관련된 의미 정보를 추출하기가 더 어려울 것입니다. ImageNet 상위 1위 정확도가 2.5% 증가했습니다.
- 더 나은 데이터 향상을 사용하여 먼저 3개의 RGB 채널 중 2개를 무작위로 추출 하고 ImageNet 상위 1 정확도가 3% 증가한 다음 일부 형상, 색상, 탄성 변형 및 기타 데이터 향상이 적용되고 ImageNet 상위 1개 채널이 향상 됩니다. 1 정확도가 4.5.% 증가하여 데이터 강화가 자기 감독에 큰 영향을 미치는 것을 알 수 있습니다.
InfoMin (NeurIPS,2020)
대조 학습을 위한 좋은 보기를 만드는 방법
주로 분석 확장 작업, 상호 정보 최소화. 요점은 적절한 상호 정보가 중요하다는 것입니다
새로운 InfoMin 원칙이 제안되었습니다. 그 목적은 특징 표현이 서로 다른 뷰 간에 공유되는 정보를 학습하도록 하고, 학습된 특징 표현이 좋은 일반화 능력을 갖도록 보장하기 위해 다운스트림 작업과 관련 없는 중복 정보를 제거하는 것입니다.
세 번째 단계: 음성 샘플 없음
BYOL(2020) - Negative Sample 없이도 학습 가능
자신만의 잠재성을 부트스트랩: 자기 지도 학습에 대한 새로운 접근 방식
x->v, v^->인코더 아키텍처는 동일하지만 매개변수가 다릅니다. ftheta는 그래디언트 업데이트로 업데이트됩니다. 다음은 모멘텀 인코더->프로젝터-> qtheta 예측 예측과 목표를 최대한 유사하게 사용 합니다 .
서로 다른 관점의 특징은 다른 관점의 특징을 예측하고 인코더만 남깁니다.
목적 함수: MSE LOSS
블로그에 대한 응답(BN은 BYOL 암시적 부정 샘플 제공):
- BN이 있어도 프로젝터만 훈련할 수 없습니다.
- 정규화가 없으면 SimCLR은 음성 샘플로도 훈련될 수 없습니다.
BYOL의 저자는 BN이 훈련에 안정적이라고 믿고 초기화가 더 좋고 BN 없이도 훈련을 할 수 있다고 제안합니다. GN(그룹 표준)과 WS(가중치 표준화)를 사용하면 이 BYOL 버전도 잘 학습할 수 있습니다.
SimSiam(CVPR2021, 최종 작업, 대규모 배치 크기 없음, 모멘텀 인코더 없음, 네거티브 샘플 없음)
간단한 샴 표현 학습 탐색
인코더 아키텍처는 동일한 방식으로 매개변수를 공유합니다.
의사코드에는 그림과 일치하지 않는 z1과 z2를 각각 예측하는 두 개의 예측변수가 있습니다.
D에서 계산된 것은 MSEloss입니다.
Stop Gradient는 매우 중요하며 EM 알고리즘으로 간주할 수 있으며 붕괴를 피하기 위해 매개변수를 점진적으로 업데이트합니다.
모든 트윈 네트워크:
다중 자르기가 없으면 SWAV가 MoCov2만큼 좋지 않다는 것을 알 수 있습니다.
바로우 트윈스(ICML 2021)
Barlow Twins: 중복 감소를 통한 자기 지도 학습
비교도 예측도 없으며 기본적으로 다른 목적함수를 사용합니다.
구체적으로는 행렬이 항등행렬과 최대한 유사해지기를 바라면서 상호상관행렬(Cross Correlation Matrix)을 생성하는 것이다.
4단계: Transformer 기반
MoCov3(CVPR,2021)
자기 감독 비전 변환기 훈련에 대한 실증적 연구
VIT 훈련은 다음과 같이 배치 크기가 증가함에 따라 불안정해집니다.
장난:
패치 프로젝션 레이어를 무작위로 초기화하고 고정합니다. 즉, MLP를 무작위로 초기화하고 고정합니다. BYOL에도 유용합니다.
디노
자가 감독형 비전 변환기의 새로운 속성
Teacher 네트워크 출력은 정규화됩니다(중심화, 평균 빼기).
의사코드는 MoCoV3와 유사하며 목적함수는 중심연산을 갖는다.
다음은 MAE
요약하다
참고:
1. 블로그.https://www.bilibili.com/read/cv24218439?spm_id_from=333.999.0.0&jump_opus=1
2. 비디오.https://www.bilibili.com/video/BV19S4y1M7hm/?spm_id_from=333.999.0.0&vd_source=4e2df178682eb78a7ad1cc398e6e154d
3. 블로그.https://blog.csdn.net/dhaiuda/article/details/117870030