May Yi와 LeCun이 공동으로 EMP-SSL을 출시하여 자기 지도 학습 효율성의 한계를 돌파했습니다.

그림

Xi Xiaoyao의 기술 공유
소스 | Xinzhiyuan

EMP-SSL은 매우 높은 자체 감독 학습 효율성을 달성하고 1 epoch 교육 후 우수한 분류 성능을 달성할 수 있습니다.

지난 몇 년 동안 비지도 및 자기지도 학습(SSL)은 큰 발전을 이루었습니다.SSL을 통해 학습된 표현은 분류 성능에서 지도 학습을 따라잡았고 경우에 따라 지도 학습을 능가했습니다.이 추세는 또한 다음을 엽니다. 비전 작업을 위한 대규모 데이터 기반 비지도 학습의 가능성.

자기 지도 학습의 실험적 성능은 놀랍지만 대부분의 자기 지도 학습 방법은 상당히 "비효율적"이며 일반적으로 완전히 수렴하는 데 수백 번의 교육 기간이 필요합니다.

그림

최근 Ma Yi 교수와 Turing Award 수상자 Yann LeCun 팀은 새로운 자기 지도 학습 방법인 EMP-SSL(Extreme-Multi-Patch Self-Supervised-Learning)을 발표했습니다. 각 이미지 인스턴스의 이미지 블록 수를 늘리는 것입니다.

그림

종이 링크:
https://arxiv.org/pdf/2304.03977.pdf

코드 링크:
https://github.com/tsb0601/EMP-SSL

대형 모델 연구 테스트 포털

GPT-4 기능 연구 포털(고급/브라우저 경고의 경우 계속 방문):

안녕!

이 방법은 분기 간 가중치 공유, 기능 정규화, 출력 양자화 및 기울기 중지 등과 같은 자기 지도 학습에서 일반적인 휴리스틱 기술에 의존하지 않으며 훈련 시간을 두 배로 줄입니다.

실험 결과 단 하나의 training epoch로 제안하는 방법은 CIFAR-10 데이터셋에서 85.1%, CIFAR-100 데이터셋에서 58.5%, Tiny ImageNet에서 58.5%, 38.1%, 58.5%로 수렴함을 보였다. ImageNet-100의 %

training epoch의 수가 10으로 증가하면 이 방법은 CIFAR-10에서 91.5%, CIFAR-100에서 70.1%, Tiny ImageNet에서 51.5%, ImageNet-100에서 78.9%를 달성할 수 있습니다.

또한 결과는 EMP-SSL이 다른 기본 방법에 비해 훈련 데이터에 대해 도메인 외부 전송 성능이 상당히 우수함을 보여줍니다.

Ma Yi 교수는 1995년 Tsinghua University에서 자동화 및 응용 수학 이중 학사 학위, 1997년 University of California, Berkeley에서 EECS 석사 학위, 2000년 EECS에서 수학 석사 및 박사 학위를 받았습니다.

그림

마이 교수는 2018년 UC 버클리 전기공학 및 컴퓨터과학과에 합류했고, 올해 1월에는 홍콩대학교 데이터사이언스연구소장으로 부임했으며 최근에는 부임했다. 홍콩대학교 컴퓨터학과장.

주요 연구 방향은 3D 컴퓨터 비전, 고차원 데이터를 위한 저차원 모델, 확장성 최적화, 기계 학습이며, 최근 연구 주제는 대규모 3D 기하 재구성 및 상호 작용, 저차원 모델과 딥 네트워크 간의 관계입니다. .

EMP-SSL

전반적인 과정

다른 SSL 방법과 유사하게 EMP-SSL은 이미지의 증강 뷰에서 조인트 임베딩을 얻습니다. 여기서 증강 뷰는 고정 크기 이미지 패치입니다.

이러한 유형의 접근 방식에는 두 가지 목표가 있습니다.

  1. 동일한 이미지의 두 가지 다른 증강 이미지의 표현이 더 가까워야 합니다.

  2. 표현 공간은 축소된 사소한 공간이어서는 안 됩니다. 즉, 데이터의 중요한 기하학적 또는 무작위 구조가 보존되어야 합니다.

이전 연구는 주로 이 두 가지 속성을 달성하기 위해 다양한 전략과 다양한 휴리스틱을 탐색하고 더 나은 성능을 달성했으며 그 성공은 주로 이미지 패치의 동시 발생 학습에서 비롯됩니다.

이미지 패치 동시 발생 학습을 보다 효율적으로 만들기 위해 연구원들은 자기 지도 학습에서 이미지 패치 수를 EMP-SSL의 한계(극단)까지 늘렸습니다.

우선, 입력 이미지에 대해 무작위 자르기(겹침)에 의해 n개의 고정 크기 이미지 블록으로 분할된 다음 이미지 블록이 표준 데이터 향상 기술을 사용하여 향상됩니다.

각각의 향상된 이미지 블록에 대해 임베딩 및 프로젝션을 얻기 위해 각각 두 개의 네트워크가 사용되며, 여기서 임베딩 네트워크는 상대적으로 깊은 네트워크(예: ResNet-18)이고 프로젝션 네트워크는 더 작고 두 개의 전체 연결 레이어만 있습니다. 함께 인코더를 형성합니다.

그림

교육 중에 모델은 표현 붕괴를 방지하기 위해 TCR(Total Coding Rate) 정규화 기술을 사용합니다.

그림

연구자들은 또한 동일한 이미지에서 서로 다른 이미지 패치의 표현이 불변하기를 희망합니다. 즉, 표현 공간에서 가능한 한 가까워야 하므로 향상된 이미지의 표현과 평균 표현 간의 차이를 최소화하려고 합니다. 동일한 이미지의 모든 향상된 이미지 패치 거리이므로 교육 목표는 다음과 같습니다.

그림

그 중 Z는 서로 다른 향상된 이미지 블록의 평균 표현을 나타내고 D는 거리 함수(코사인 유사성), 즉 D의 값이 클수록 더 유사합니다.

이 목적함수는 최대율감소(maximal rate reduction)의 변형으로 볼 수 있으며, 공분산 기반 SSL 방식의 일반화된 버전으로도 볼 수 있다. 학습 방법, 이미지 블록 기여의 학습 속도를 향상시키기 위해 n을 더 크게 설정할 수도 있습니다.

그림

기능 가방

연구자들은 입력 이미지의 표현을 모든 이미지 블록의 임베딩 평균으로 정의하지만 일부 작업에서는 임베딩 표현에 더 많은 산술 계열과 지역성이 포함되면 성능이 더 좋아지고 투영이 더 안정적이어야 한다고 생각하지만 이 결론은 여전히 엄격한 증거가 부족합니다.

건축학

연구원들은 자기 지도 학습에 자주 사용되는 간단한 형태의 네트워크 아키텍처를 채택하려고 했습니다. 즉, EMP-SSL에는 예측 네트워크, 모멘텀 인코더, 무관심 연산자 또는 정지 경사가 필요하지 않습니다.

이러한 방법은 일부 자기지도 학습 방법에서 효과적인 것으로 입증되었지만 그 효과는 더 많은 연구의 여지가 있습니다.본 논문은 제안된 자기지도 학습 방법의 효과에 초점을 맞춥니다.

실험 결과

한 시대를 위한 자기 지도 학습

다른 최첨단 자기 지도 학습 방법과 비교할 때 EMP-SSL은 데이터 세트를 한 번만 본 경우에도 거의 완전히 수렴된 SOTA 성능으로 수렴할 수 있음을 알 수 있습니다.

그림

결과는 이 방법이 현재 SSL 방법의 융합을 개선할 뿐만 아니라 온라인 학습, 증분 학습, 로봇 학습과 같은 컴퓨터 비전의 다른 영역에서도 큰 잠재력을 가지고 있음을 보여줍니다.

표준 데이터 세트에 대한 빠른 수렴

CIFAR-10, CIFAR-100, Tiny ImageNet 및 ImageNet-100을 포함한 표준 데이터 세트에서 연구원들은 수렴 속도 측면에서 제안된 목적 함수의 효율성을 검증했습니다.

그림

EMP-SSL은 단 한 번의 훈련 후에 20개의 이미지 블록 설정에서 80.6%의 정확도를 달성하고 200개의 이미지 블록 설정에서 82.6%의 정확도를 달성하는 것을 볼 수 있습니다.

그림

10 epoch 이후 EMP-SSL은 90% 이상으로 수렴했으며, 이는 CIFAR-10 데이터셋에서 가장 진보된 자기주도 학습 방법이기도 하며, 30 epoch에서 EMP-SSL의 정확도는 현재의 모든 방법을 능가했으며, 93% 이상에 도달합니다.

시간 효율성 문제와 관련하여 공동 임베딩 자기 지도 학습에서 이미지 패치의 수가 증가하면 훈련 시간이 길어질 수 있습니다.

연구원들은 실험을 위해 2개의 A100 GPU를 사용하여 CIFAR에서 지정된 성능을 달성하기 위해 각 방법에 필요한 시간을 비교했습니다.

그림

실험 결과에서 CIFAR-10 데이터 세트에서 EMP-SSL은 수렴하는 데 훨씬 적은 훈련 에포크가 필요할 뿐만 아니라 실행 시간도 더 짧다는 것을 알 수 있습니다.

더 복잡한 CIFAR-100 데이터 세트에서 이 이점은 훨씬 더 분명합니다.이전 방법은 더 많은 훈련 epoch가 필요하므로 수렴 시간도 더 긴 반면 EMP-SSL은 좋은 효과를 얻기 위해 몇 번의 훈련 epoch만 필요합니다.

표현 시각화

연구원들은 t-SNE 맵의 결과를 사용하여 EMP-SSL이 몇 에포크 동안만 훈련했음에도 불구하고 의미 있는 표현을 학습했음을 입증했습니다.

그림

CIFAR-10 훈련 세트에서 학습된 표현 맵에서 EMP-SSL은 200개의 이미지 패치를 사용하여 10 에포크 동안 훈련되고 다른 SOTA 방법은 1000 에포크 동안 훈련되며 각 색상은 다른 범주를 나타냅니다.

다른 범주에 대해 EMP-SSL이 학습한 표현이 더 잘 분리되고 더 구조화되어 있음을 볼 수 있습니다.

가장 놀랍게도, 이 모든 구조는 단 10번의 교육 기간으로 학습됩니다!

이미지 블록 번호 제거 실험

연구원들은 또한 목적 함수에서 이미지 패치 n의 수에 대해 절제 실험을 수행하여 수렴 과정에서 이 매개변수의 중요성을 입증했습니다.

그림

대형 모델 AI 풀 스택 핸드북

**업계 최초 AI 풀스택 매뉴얼 다운로드 가능! ! **

최대 3,000페이지에 달하는 방대한 언어 모델 기술 개발, AIGC 기술의 최신 동향 및 응용, 딥러닝 기술 등 AI 방향을 다루고 있습니다. WeChat 공개 계정은 "Xi Xiaoyao Technology Talk"에 주목하고 자료를 다운로드하려면 "789"라고 회신하십시오.

 

 

참조

 [1]https://arxiv.org/pdf/2304.03977.pdf

추천

출처blog.csdn.net/xixiaoyaoww/article/details/132093474