논문 해석 | YOLO 시리즈 선구적인 작업: 통합 실시간 객체 감지

원본 | 텍스트: BFT Robot 

그림

01

요약

YOLO는 객체 검출 문제를 회귀 문제로 처리하여 경계 상자와 클래스 확률을 동시에 예측한다는 점에서 이전 방법과 다른 새로운 객체 검출 방법입니다. 이 방법은 단일 신경망을 사용하여 전체 이미지에서 직접 객체 경계 상자 및 클래스 확률을 예측하여 엔드투엔드 성능 최적화를 가능하게 합니다.

YOLO는 매우 빠릅니다. 기본 모델은 초당 45프레임을 처리하고 빠른 버전은 초당 155프레임을 처리하면서도 여전히 높은 정확도를 달성합니다. 위치 지정 시 일부 오류가 발생할 수 있지만 배경 오류가 발생할 가능성은 거의 없습니다. 자연 이미지에서 잘 수행될 뿐만 아니라 다른 도메인(예: 아트웍)에서 DPM 및 R-CNN을 포함한 다른 감지 방법보다 성능이 뛰어난 범용 객체 표현을 학습할 수 있습니다.

02

소개하다

객체 감지를 이미지 픽셀에서 경계 상자 좌표 및 클래스 확률로 직접 단일 회귀 문제로 재구성합니다. YOLO(You Only Look Once)라고 불리는 이러한 시스템을 사용하면 단일 이미지 관찰에서 현재 객체와 해당 위치를 실시간으로 예측할 수 있습니다.

YOLO의 핵심 아이디어는 그림 1과 같이 간단한 컨볼루셔널 신경망을 사용하여 여러 경계 상자와 해당 클래스 확률을 동시에 예측하는 것입니다. 전통적인 방법과 비교하여 YOLO에는 세 가지 주요 장점이 있습니다.

빠름: 탐지가 회귀 문제로 처리되므로 복잡한 처리 파이프라인이 필요하지 않습니다. YOLO의 기본 네트워크는 초당 45프레임으로 실행되며 빠른 버전은 150fps 이상으로 훨씬 더 빠릅니다. 이는 스트리밍 비디오가 25밀리초 미만의 지연 시간과 다른 실시간 시스템보다 더 높은 정확도로 실시간으로 처리될 수 있음을 의미합니다.

전역 추론: YOLO는 슬라이딩 윈도우나 영역 제안을 사용하는 다른 방법과 달리 예측할 때 전체 이미지를 봅니다. 이를 통해 객체와 객체의 모양에 대한 상황별 정보를 암시적으로 인코딩하여 배경 오류를 줄일 수 있습니다. YOLO는 다른 방법에 비해 경계 상자 수가 적습니다.

다양성: YOLO는 보편적인 객체 표현을 학습할 수 있으며 자연스러운 이미지뿐만 아니라 다른 도메인(예: 아트워크)에 대한 테스트에서도 잘 수행되어 DPM 및 R-CNN과 같은 다른 최고 탐지 방법보다 성능이 뛰어납니다.

그러나 속도와 다용도성에도 불구하고 YOLO는 특히 작은 물체를 정확하게 찾는 경우 정확도 측면에서 일부 최첨단 물체 감지 시스템에 비해 여전히 뒤떨어져 있습니다. 연구에서는 이러한 절충안과 과제를 더 자세히 조사합니다.

그림

그림 1

03

통합검사

핵심 아이디어 및 작업 원리

통합 신경망 모델: YOLO는 객체 감지의 독립적인 구성 요소를 전체 이미지의 특징을 사용하여 각 경계 상자를 예측하는 동시에 이미지의 모든 범주에 대한 경계 상자를 예측하는 단일 신경망에 통합합니다. 이를 통해 네트워크는 전체 이미지와 모든 객체를 동시에 처리하면서 전역적으로 추론할 수 있습니다.

엔드 투 엔드 훈련 및 실시간 속도: YOLO는 실시간 처리 속도를 유지하면서 엔드 투 엔드 훈련이 가능하도록 설계되었으며 높은 평균 정확도를 유지할 수 있습니다.

S×S 그리드 지정: 입력 이미지는 S×S 그리드 셀로 나누어지며, 각 그리드 셀은 해당 셀에 중심이 있는 객체를 감지하는 역할을 합니다.

각 그리드 셀 예측: 각 그리드 셀은 B개의 경계 상자와 이러한 경계 상자의 신뢰도 점수를 예측합니다. 이 점수는 상자에 객체가 있는지 여부에 대한 모델의 신뢰도와 예측의 정확성을 반영합니다. 신뢰도 점수는 Pr(Object) * IOU_truth_pred로 정의되며, 셀에 개체가 없으면 신뢰도 점수는 0입니다.

경계 상자 예측: 각 경계 상자는 그리드 셀 경계를 기준으로 상자의 중심을 나타내는 (x, y) 좌표와 전체 이미지를 기준으로 한 너비 및 높이 예측을 포함하여 5개의 예측으로 구성됩니다. 마지막으로 신뢰도 예측은 예측 상자와 실측 상자 간의 교차점을 나타냅니다.

클래스 확률 예측: 각 그리드 셀은 객체를 포함하는 그리드 셀에 따라 달라지는 C 조건부 클래스 확률 Pr(Class_i|Object)도 예측합니다. 경계 상자 수에 관계없이 각 그리드 셀에 대해 하나의 분류 확률 세트만 예측됩니다.

그림

웹 디자인

탐지 네트워크에는 24개의 컨벌루션 레이어가 있고 그 뒤에는 2개의 완전 연결 레이어가 있습니다. 1×1 컨벌루션 레이어를 교대로 사용하면 이전 레이어의 특징 공간이 줄어듭니다. 컨벌루션 레이어는 ImageNet 분류 작업에서 절반의 해상도(224 × 224 입력 이미지)로 사전 학습된 다음 감지를 위해 해상도를 두 배로 늘립니다.

그림

기차

사전 훈련: 그들은 모델의 처음 20개 컨벌루션 레이어, 평균 풀링 레이어 및 완전 연결 레이어를 사용하여 ImageNet 1000 클래스 경쟁 데이터세트에서 컨벌루션 레이어를 사전 훈련했습니다. 이 사전 훈련 프로세스는 모델의 성능을 향상시킵니다.

감지 모델 변환: 그런 다음 객체 감지를 수행하기 위해 모델을 변환했습니다. 성능을 높이기 위해 저자는 무작위로 초기화된 가중치를 갖는 4개의 컨볼루션 레이어와 2개의 완전 연결 레이어를 추가했습니다. 감지에는 더 많은 시각적 정보가 필요하기 때문에 네트워크의 입력 해상도를 224×224에서 448×448로 늘렸습니다.

마지막 레이어 예측: 모델의 마지막 레이어는 클래스 확률과 경계 상자 좌표를 예측하는 데 사용됩니다. 경계 상자의 너비와 높이는 0과 1 사이로 정규화되고 x 및 y 좌표는 특정 그리드 셀 위치의 오프셋으로 매개변수화됩니다.

활성화 함수: 마지막 레이어는 선형 활성화 함수를 사용하고, 다른 레이어는 누출 수정 선형 활성화 함수를 사용합니다.

손실 함수: 저자는 평균 정확도를 최대화하려는 목표와 정확하게 일치하지는 않지만 최적화 목표로 오차 제곱합을 사용합니다. 훈련의 불안정성을 해결하기 위해 경계 상자 좌표 예측에 대한 손실을 늘리고 객체를 포함하지 않는 상자의 신뢰도 예측에 대한 손실을 줄입니다.

그림

04

결론적으로

이 논문에서는 YOLO라는 객체 감지를 위한 통합 모델을 소개합니다. YOLO 모델은 구성이 간단하고 완전한 이미지에 대해 학습이 가능하며, 기존 분류기 방법과 달리 탐지 성능과 직접적으로 관련된 손실 함수를 사용하여 학습하고 전체 모델을 공동으로 학습합니다.

그 중 빠른 버전인 YOLO는 문헌에서 가장 빠른 일반 객체 감지기로 실시간 객체 감지 분야의 발전을 촉진합니다. 또한 YOLO는 새로운 도메인에 성공적으로 적용될 수 있으므로 빠르고 강력한 객체 감지에 의존하는 애플리케이션에 이상적입니다.

작성자 | 설탕을 첨가하지 않았습니다.

조판 | 샤오허

리뷰 | 고양이

본 글의 내용에 대해 문의사항이 있으신 경우 연락주시면 신속하게 답변해 드리겠습니다. 더 많은 최신정보를 알고 싶으시다면 좋아요와 팔로우 잊지마세요~

Supongo que te gusta

Origin blog.csdn.net/Hinyeung2021/article/details/132966543
Recomendado
Clasificación