AlexNet에 대한 나의 이해

1. 일부 배경

1. ImageNet LSVRC-2012 대회

여기에 이미지 설명 삽입
ImageNet 데이터 세트에는 약 22,000개의 범주에 속하는 1,500만 개 이상의 주석이 달린 고해상도 이미지가 있습니다.

LSVRC-2012에서 상위 5개 오류율 15.3% 달성

(상위 5 오류율은 모델에서 고려한 가장 가능성이 높은 5개의 스티커 메모에 올바른 레이블이 없는 테스트 이미지의 비율입니다.
)

2. 역사적 의의

AlexNet이 있는 이유는 무엇입니까?

AlexNet 이전: 처리된 데이터 세트는 작았습니다(수만 개의 이미지 정도)(예: Mnist).

AlexNet이 등장한 후:
처리된 데이터 세트가 매우 커질 수 있으며(수백만 개의 이미지에서 수천 개의 개체 학습)
심각한 과적합이 발생하지 않습니다.

3. 혁신 포인트 요약

교육 속도를 높이기 위해 비선형 활성화 함수인 ReLU가 사용됩니다.

여러 GPU에서 훈련: 효율성 향상;

국소 반응 정규화: LPN;

중첩 풀링: 중첩 풀링;

전체 아키텍처: AlexNet은 총 6천만 개의 매개변수와 650,000개의 뉴런이 있는 5개의 컨볼루션 레이어와 3개의 완전히 연결된 레이어로 구성됩니다.

과적합 감소: 데이터 향상 + 드롭아웃;

2. 전체 구조를 논의하기 전에

1. ReLU 비선형 활성화 함수

여기에 이미지 설명 삽입
여기에 이미지 설명 삽입
장점: ReLU 기능의 장점은 훈련 시간이 더 빠르다는 것입니다.

2. 여러 GPU에서 훈련

두 개의 GTX 580 3G 병렬 교육 사용;

컨볼루션 레이어는 모두 두 개의 GPU를 사용하고 두 분기는 분리되어 있습니다.

세 번째 계층은 직렬로 연결됩니다(교차 검증).

마지막에는 완전히 연결된 계층이 모두 연결됩니다.

여기에 이미지 설명 삽입

이점: 오류율 감소, 교육 시간 단축

훈련 결과

두 GPU에서 훈련된 컨볼루션 커널 기능은 다릅니다.
여기에 이미지 설명 삽입

3. 로컬 응답 정규화 LRN

각 레이어의 각 뉴런을 주변 N개의 뉴런으로 정규화

그렇게 하면 동일한 위치에 너무 많은 고도로 활성화된 뉴런이 필요하지 않고 인간의 뉴런 활성화를 모방할 수 있습니다. 하나의 뉴런이 활성화되면 주변 뉴런의 활성화가 억제됩니다.

이점: ReLU는 입력을 정규화할 필요가 없지만 이 백서는 로컬 표준화가 성능을 향상시킬 수 있음을 발견했습니다.

참고: 이 작업은 의미가 없습니다. 후속 문서에서는 메커니즘을 전복하지만 설명이 너무 많습니다(?)

4. 중복 풀링 중복 풀링

————————————————
보충 수업:

컨볼루션 레이어: 기능 추출(예: 샤프닝, 로컬 기능 가져오기)

Pooling layer: 영역의 평균 또는 최대값을 취함(주요 특징은 유지하면서 매개변수 및 계산을 줄임, over-fitting 방지, 모델의 일반화 능력 향상) (1080p -> 720p)
——————— ————— ———
링크: 중첩 이해
여기에 이미지 설명 삽입

이점: 오류율 감소 및 과적합 방지

3. 전체 구조

여기에 이미지 설명 삽입

————————————————
보충 수업:

컨볼루션 커널(커널)과 필터(필터)의 차이점:
컨볼루션 커널은 2차원, 필터는 3차원(고차원 또는 4차원)
————————— ——— ————

여기에 이미지 설명 삽입

전체 연결 8: softmax 기능을 사용하여 명백한 기능을 확장하고 명확하지 않은 기능을 축소하면서 확률이 1이 되도록 하고 최종적으로 출력합니다.

————————————————
보충 수업:

Softmax 함수: 정규화 지수 함수라고도 하며 다중 분류 결과를 확률 형식으로 표시하는 것이 목적입니다.

완전 연결 레이어의 역할: 컨볼루션은 로컬 기능을 사용하고 완전 연결은 가중치 매트릭스를 통해 이전 로컬 기능을 완전한 그래프로 재조립하는 것입니다. (이해하기 위해 퍼즐을 사용)

————————————————

넷째, 과적합을 줄이는 방법

1. 데이터 증강

가로 뒤집기, 무작위 자르기, 색상 조정, 조명 변환 으로 데이터 세트 보강

데이터 향상 단계는 CPU에서 수행되며, 모델이 이전 데이터 배치를 학습하면 다음 데이터가 CPU에서 생성됩니다.

여기에 이미지 설명 삽입

2. 탈락

간단히 말해서: 무작위로 일부 뉴런을 교살합니다.

질식: 일부 뉴런의 가중치 w를 0으로 만듭니다.

각 뉴런의 비활성화 확률은 0.5입니다.

기능:
이 방법은 뉴런의 일부가 모델의 훈련에 참여하게 하고, 매번 적은 수의 뉴런으로 구성된 신경망이 모델이기 때문에 여러 모델을 훈련하고 최종적으로 평균을 구하는 결과를 얻습니다. 즉, 신경망으로 구성된 네트워크의 일부만이 매번 일부 훈련 데이터에 적응하므로 과적합이 잘 완화됩니다.

여기에 이미지 설명 삽입

5. 일부 결과

여기에 이미지 설명 삽입

여담:

AlexNet이 등장한 후 CNN은 매우 빠른 속도로 발전했습니다.

AlexNet - VGG - GoogLeNet - ResNet

이러한 구조에서:

VGG는 AlexNet보다 더 깊은 네트워크 구조를 가지고 있어 큰 수용 필드를 작은 수용 필드로 대체합니다.

GoogLeNet은 Inception 모듈을 도입했습니다.

ResNet은 잔류 학습 단위(Residual Unit)를 도입했습니다.

참조
  1. AlexNet 종이 노트
  2. AlexNet 네트워크에 대한 심층적 이해
  3. 알렉스넷
  4. AlexNet의 컨볼루션 신경망의 일반적인 구조 이해
  5. AlexNet의 자세한 해석

Supongo que te gusta

Origin blog.csdn.net/m0_58770526/article/details/125704817
Recomendado
Clasificación