시각적 개체 추적을 위한 주의 분산기 인식 샴 네트워크(DaSiamRPN)

Visual Object Tracking을 위한 Distractor-aware Siamese Networks(DaSiamRPN,ECCV2018)

이 논문은 각각 개선된 다음 세 가지 문제를 목표로 합니다.

  1. 일반적인 Siam과 같은 추적 방법은 의미 정보 없이 대상과 배경만 구분할 수 있습니다(즉, 단순 배경(단순 배경) 객체이지만 객체임). 실제 대상이 변형되거나 사라질 때 이러한 의미론적 선택 항목으로 드리프트(드리프트)하므로 이러한 방법의 견고성 및 장기 추적 효과가 좋지 않습니다.
  2. 대부분의 Siam과 같은 트래커는 추적 단계에서 모델을 업데이트할 수 없습니다. 즉, 템플릿 입력은 항상 첫 번째 프레임에 프레임된 개체이고 훈련된 모델은 다른 특정 개체에 대해 동일합니다. 이것은 정밀도를 희생시키면서 고속을 가져옵니다.
  3. 장기추적 적용 시 시암형 트래커는 풀오클루전, 화면 밖으로 나오는 물체 등의 문제에 대처할 수 없었는데, 실험을 해보니 트래커가 거짓 표적을 실제 표적인 것처럼 추적하기 쉽다는 것을 알게 되었습니다. 이렇게 하면 실제 대상이 다시 나타날 때 로컬에서만 검색하기 때문에 추적자는 이를 다시 실제 대상으로 간주하지 않을 수 있으며 잘못된 대상을 따라갔을 수 있으며 이는 네트워크가 학습하지 않았음을 나타냅니다. 이 대상의 세분화된 기능은 방금 학습했지만 일반적으로 간단한 배경과 목표만 구분할 수 있습니다.

위의 세 가지 문제점을 고려하여 제안된 솔루션은 다음과 같습니다.

  1. 학습 데이터에서 비의미적 배경과 의미적 산만 배경 간의 데이터 불균형 문제(즉, 단순 배경 샘플이 너무 많고 어려운 네거티브 샘플이 너무 적음)를 목표로 저자도 이미지넷에 데이터를 전달합니다. 그리고 데이터를 통한 COCO 검출 데이터베이스 Augmented 방식은 양성 샘플 쌍을 만들어 훈련 데이터 세트의 종류를 확장하고 네트워크의 일반화 능력을 향상시키며, 서로 다른 범주와 동일한 범주의 사진을 음성 샘플로 추출하여 어려운 음성 샘플을 생성합니다. 이 글은 단순 변환, 빛 변환, 동작 방향 흐림 방법(동작 방향은 저수준 특징에서 얻을 수 있음)을 사용하는 것을 제외하고 추적기의 식별 능력을 향상시키는 데 사용됩니다.

  2. 현재 훈련 전략은 모델의 판별력을 강화했지만 여전히 모델이 이미지에서 유사한 객체를 구별하기 어렵습니다. ) 및 방해 요소를 억제하는 간섭 개체 인식 모델(Distractor-aware Incremental Learning)을 제안합니다.
    여기에 이미지 설명 삽입

    fff 는 상호 상관 연산,zzz 는 현재 프레임의 템플릿이며 이 공식의 가장 높은 값은qq입니다.q 는 추적 결과이며 비최대 억제를 통해 특정 임계값보다 큰 일부 선택 항목을 선택 항목di d_i, 그리고 나서 프레임을 추적할 때 이러한 선택 항목과 검색 영역의 응답에서 응답 점수를 빼야 합니다. 대상 객체와 템플릿 di d_i를 사용하면 더 좋습니다.덜 유사할수록 좋습니다.
    위의 정의에 따라 그들은 이전 프레임의 정보를 사용하여 현재 프레임의 대상을 학습하는 증분 학습 프로세스로 현재 프레임을 추적하므로 추적 템플릿이 온라인으로 업데이트되어 심각한 폐색을 처리할 수 있습니다. 많은 목표, 변화의 문제. 따라서 이 글에서는 트래킹 시 기존의 유사도 측정 방식 대신 분류기를 사용한다.

  3. 장기간 추적할 수 없는 세 번째 문제에 대해 본 논문은 장기 추적을 위한 local-to-global 전략을 제안한다. 참고: 이 전략은 앞선 두 가지 개선 사항을 기반으로 제안된 진보적인 관계입니다. 훈련 데이터의 향상과 간섭 식별 모델의 도입을 통해 모델의 식별 능력은 이미 매우 강합니다. 검색 영역 대상이 완전히 차단된 경우에만 확장할 수 있습니다. 탐색 영역이 확장되자마자 주의를 산만하게 하는 개체의 수가 증가할 수밖에 없기 때문에 앞선 두 가지 개선 사항이 없으면 잘못된 대상이 진짜 대상으로 간주될 것입니다.

SiamRPN을 완료한 후 저자는 추적된 프레임이 더 잘 회귀되었지만 응답 점수는 여전히 상당히 신뢰할 수 없음을 발견했습니다. 즉, 저자는 SiamRPN이 객체성/비객체성 구분만 학습했다고 추론한다.

위 문제의 원인은 저자의 결론은 학습 과정에서 샘플의 불균형 때문입니다. 첫 번째는 양성 샘플의 유형이 충분하지 않아 모델의 일반화 성능이 불충분하다는 것입니다. 탐지 데이터에 의해 생성된 모델의 일반화 성능이 크게 향상되었습니다. 두 번째 샘플 불균형은 어려운 네거티브 샘플에서 발생합니다.이전 샴 네트워크 교육에서는 네거티브 샘플이 너무 단순하고 의미 정보가 없는 경우가 많았습니다. 어려운 음성 샘플을 구성하여 분류기의 식별 능력을 향상시킵니다. 위의 두 가지 개선 사항은 해당 점수의 품질을 크게 향상시키고 추적기의 식별 능력을 향상시킵니다.

고품질 응답 점수로 장기 추적에 보너스를 사용할 수 있습니다. 저자는 비교적 간단한 local-to-global 확장 검색 영역 방법을 채택했으며 UAV20L에서 최신 결과를 얻었습니다.

Je suppose que tu aimes

Origine blog.csdn.net/weixin_48158964/article/details/131514734
conseillé
Classement