딥 러닝에 대한 몇 가지 기본 지식

목차

1. 표적 탐지 1단계 방식과 2단계 방식

2. 앵커 프레임(앵커)

3. 딥러닝 탐지기

넷째, 컴퓨터 그래픽 분야에서 딥 러닝의 주요 작업:

다섯째, Bounding Box Regression의 원리

6. 컨볼루션과 풀링 연산의 특징

7. VGG16 네트워크 구조를 너무 깊게 구축할 수 없는 이유는 무엇입니까? ResNet이 이 문제를 해결하는 방법.

8. 비선형 활성화 기능을 도입한 이유는 무엇입니까? 포화활성화함수와 불포화활성화함수를 쓰고 각 활성화함수의 정의와 특징을 적는다.

나인, 과적합을 방지하는 주요 방법


1. 표적 탐지 1단계 방식과 2단계 방식

1단계 1단계 표적 탐지 알고리즘: YOLO, RetinaNet, SSD 등

이 검출 방식은 Feature fusion, Focal Loss 등 우수한 네트워크 경험에 의존하며, 알고리즘 네트워크 구조를 통해 검출하고자 하는 물체의 종류, 크기, 형태, 가능한 위치를 한번에 검출할 수 있으며, 주로 high에 사용된다. 감지 속도 요구 사항 움직이는 물체 또는 조립 라인의 물체 등과 같은 상황 이 방법은 탐지 문제를 완전히 회귀시켜 실시간 요구 사항을 충족할 수 있고 실행 가능성이 높으며 일반적으로 2단계 네트워크보다 속도가 빠르지만 정확도는 2단계 방법보다 나쁩니다.

2단계 2단계 표적 탐지 알고리즘: R-CNN, Fast R-CNN, Faster R-CNN 등

이 감지 방법은 물체를 감지할 때 두 단계를 거쳐야 하는데, 먼저 감지할 물체의 관심 영역을 프레이밍하여 충분히 정확한 회상을 보장할 수 있는 제안 프레임을 얻은 다음 감지 알고리즘을 통해 제안 프레임을 분류하여 보다 정확함 이 감지 방법은 고정식 또는 고정식 성형 연마재와 같이 높은 감지 속도가 필요하지 않은 분야에서 자주 사용됩니다. 검출 정확도는 원스텝 방식보다 높지만 실시간 성능은 원스텝 방식보다 떨어진다.

2. 앵커 프레임(앵커)

Anchor는 Faster RCNN에 처음 등장했습니다. 본질적으로 다양한 크기, 너비 및 높이의 일련의 선험적 상자이며 기능 맵에 고르게 분포되어 있으며 기능을 사용하여 이러한 Anchor의 범주와 실제 객체 경계로부터의 오프셋을 예측합니다. . Anchor는 물체 감지를 위한 사다리를 제공하는 것과 동일하므로 감지기가 물체를 처음부터 직접 예측하지 않으며 정확도가 높은 경우가 많습니다.일반적인 알고리즘에는 Faster RCNN 및 SSD가 포함됩니다.

3. 딥러닝 탐지기

1. 개발 연혁

2. 평가지표

(1) IoU:

특정 객체의 경우 예측 프레임과 실제 프레임의 적합도를 통해 검출 품질을 판단할 수 있으며, 적합도를 정량화하기 위해 일반적으로 IoU(Intersection of Union)를 사용합니다.

IoU의 계산 방법: 두 경계의 교차 및 합집합 비율. IoU의 값 범위는 [0,1]이며 IoU 값이 클수록 두 상자의 일치도가 좋습니다.

(2) mAP:

검출기의 경우 mAP(평균 평균 정밀도)는 일반적으로 모델의 품질을 평가하는 데 사용됩니다. AP는 범주의 탐지 정확도를 나타내며 mAP는 여러 범주의 평균 정확도입니다. 평가에는 각 그림의 예측 값과 레이블 값이 필요하며 특정 인스턴스의 경우 두 가지 내용이 포함됩니다.

  • 예측 값(Dets): 개체 범주, 경계 위치 및 개체 점수의 4가지 예측 값입니다.
  • 태그 값(GT): 객체 범주, 경계 상자 위치에 대한 4개의 실측 값.

넷째, 컴퓨터 그래픽 분야에서 딥 러닝의 주요 작업:

(1) 이미지 분류: 이미지에 나타나는 개체에 레이블을 지정합니다.

(2) 표적 감지: 테스트 사진을 입력하고 감지된 물체 범주 및 위치를 출력합니다.

(3) 객체 분할: 가장자리에 따라 이미지의 특정 객체를 분할합니다.

(4) 이미지 생성

다섯째, Bounding Box Regression의 원리

타겟 검출 과정에서 생성된 후보 프레임은 표시된 실제 프레임을 타겟으로 하여 접근한다. 이미지의 프레임은 중심점(Xc, Yc)의 좌표와 너비 w, 높이 H에 의해 고유하게 결정될 수 있으므로 이러한 접근 과정을 회귀 문제로 모델링할 수 있습니다.

"미세 조정" 전략은 프레임 회귀를 통해 구현될 수 있으며 예측 프레임은 모델의 예측 결과를 개선하기 위해 실제 프레임에 최대한 가깝게 조정됩니다.

경계 회귀의 일반적인 아이디어는 변환 + 축소 축소입니다. 먼저 상자의 중심이 최대한 일치하도록 변환한 다음 스케일 스케일링을 수행하여 영역을 닫습니다.

위의 원리는 다음과 같이 수학적 기호로 표현됩니다. 후보 대상 프레임 세트 P=(Px,Py,Pw,Ph)가 주어지면 f(Px,Py,Pw,Ph)=(Gx^ ,Gy^,Gw^,Gh^) 및 (Gx^,Gy^,Gw^,Gh^)≈(Gx,Gy,Gw,Gh). 여기서 G는 실제 대상 프레임을 나타내고 G^는 경계 회귀 알고리즘에 의해 예측된 대상 프레임을 나타냅니다.

참조 문서:

경계 상자 회귀(Bounding Box Regression) 상세 설명

6. 컨볼루션과 풀링 연산의 특징

컨볼루션의 특성: "로컬 인식, 매개변수 공유"의 특성은 네트워크 매개변수를 크게 줄이고 네트워크의 희소성을 보장하며 과적합을 방지합니다.

풀링의 특성: 모델 과적합 감소, 변환 불변성, 즉 객체가 이미지에서 작은 변환이 있는 경우(수용 필드를 초과하지 않음) 이러한 변위는 풀링 효과에 영향을 미치지 않으므로 풀링되지 않습니다. 모델의 특징 맵 추출에 영향을 미칩니다.

7. VGG16 네트워크 구조를 너무 깊게 구축할 수 없는 이유는 무엇입니까? ResNet이 이 문제를 해결하는 방법.

(1) AlexNet 및 VGG와 같은 주류 네트워크는 단순 적층 레이어이며, 네트워크 레이어가 깊을수록 인식 효과가 더 뚜렷해지는 현상이 더 두드러집니다. 그러나 실제로 네트워크 계층의 수가 특정 깊이에 도달하면 정확도가 포화 상태에 도달한 다음 급격히 감소하여 네트워크 성능이 저하됩니다. 역전파 알고리즘의 체인 규칙으로 인해 레이어 사이의 그래디언트가 (0,1) 사이이고 레이어가 줄어들면 그래디언트는 사라집니다. 반대로 레이어별로 전달된 그래디언트가 1보다 크면 레이어별로 확장된 후 그래디언트 폭발이 발생합니다. 따라서 단순한 스태킹 레이어는 필연적으로 네트워크 저하를 유발합니다.

(2) ResNet은 잔차 모듈을 도입하여 레벨이 상대적으로 깊을 때 학습할 수 없는 문제를 해결합니다. 신경망을 거치지 않고 입력의 일부 데이터를 출력으로 직접 전달합니다. 이러한 방식으로 원래 정보의 일부가 유지되어 역전파 동안 그래디언트 분산 문제를 방지하므로 네트워크 깊이가 한 번에 152개 레이어에 도달합니다. ResNet의 원래 의도는 네트워크가 ID 매핑 기능을 갖도록 허용하여 네트워크가 심화될 때 적어도 심층 네트워크의 최종 성능이 최소한 얕은 네트워크의 성능과 동일하도록 보장할 수 있도록 하는 것입니다.

8. 비선형 활성화 기능을 도입한 이유는 무엇입니까? 포화활성화함수와 불포화활성화함수를 쓰고 각 활성화함수의 정의와 특징을 적는다.

활성화 함수는 인공 신경망의 뉴런에서 실행되는 함수로 뉴런의 입력을 출력으로 매핑하는 역할을 하며 신경망 모델의 비선형성을 높이기 위해 활성화 함수를 도입합니다.

(1) 비선형 변환은 딥러닝이 효과적인 이유 중 하나입니다. 그 이유는 비선형성은 공간을 변환하는 것과 같고, 변환 후에는 문제 공간을 단순화하는 것과 같기 때문에 원래 선형적으로 풀 수 없었던 문제가 이제 풀릴 수 있습니다. 활성화 함수를 사용하지 않는 경우 이 경우 각 레이어의 출력은 상위 레이어의 입력에 대한 선형 함수이므로 신경망이 몇 개의 레이어를 가지고 있든 상관없이 출력은 입력의 선형 조합입니다. 가장 원시적인 인식 기계인 숨겨진 레이어가 없는 것과 동일하면 네트워크의 근사화 기능이 상당히 제한됩니다.

(2) 활성함수는 포화활성화함수와 불포화활성화함수로 나뉜다.

포화 활성화 함수: 시그모이드, tanh;

불포화 활성화 함수: ReLU, PReLU, Leaky ReLU, RReLU, ELU 등

참조 문서:

일반적인 활성화 기능(인센티브 기능)의 이해 및 요약_인공지능_tyhj_sf-DevPress 공식 커뮤니티(csdn.net)

나인, 과적합을 방지하는 주요 방법

(1) 정규화 용어 및 매개변수 규범 페널티 추가: 훈련해야 하는 목적 함수에 몇 가지 규칙 제한을 추가합니다.

(2) 데이터 향상, 샘플 수 증가: 모델의 일반화 능력을 향상시키는 방법은 훈련에 더 많은 훈련 데이터를 사용하는 것입니다. 일부 데이터는 인위적으로 생성되어 훈련 세트에 추가될 수 있습니다.

(3) 조기 중지: 모델의 능력이 향상됨에 따라 훈련 세트의 오류가 먼저 감소한 다음 증가하며, 알고리즘을 조기에 종료하여 과적합 현상을 완화할 수 있습니다.

(4) 드롭아웃: 심층 신경망 훈련을 위한 트릭으로 사용할 수 있습니다. 각 훈련 배치에서 특징 감지기의 절반을 무시함으로써 오버배칭이 크게 줄어듭니다.

(5) 배치 정규화: 출력이 (0,1) 정규 분포를 따르도록 BN을 정규화하여 입력이 활성화 함수의 선형 부분에 있도록 하여 네트워크가 더 빠르게 적합하도록 돕습니다.

(6) 교육 시간: 적절한 학습 속도와 학습 라운드를 선택합니다.

(7) 매개변수 바인딩 및 매개변수 공유.

참조 문서:

딥 러닝 지식 포인트 종합 요약_GoAI의 블로그-CSDN 블로그_딥 러닝 요약

메모:

본 글은 참고문헌과 자료를 공부한 후의 귀납 및 요약본으로 학습기록용으로만 작성하였으니 틀린 부분이 있으면 정정 및 소통 부탁드립니다.

Supongo que te gusta

Origin blog.csdn.net/weixin_45820024/article/details/128730929
Recomendado
Clasificación