「クジラの顔認識」が開始され、ハワイ大学は 50,000 枚の画像を使用して認識モデルをトレーニングし、平均精度は 0.869 でした。

内容概要:顔認識は人間のアイデンティティをロックすることができます。この技術はクジラ目にも拡張されており、「背びれ認識」があります。「背びれ認識」は、画像認識技術を活用し、背びれから鯨類の種を識別します。従来の画像認識は畳み込みニューラル ネットワーク (CNN) モデルに依存しており、大量のトレーニング画像が必要で、特定の単一種しか認識できません。最近、ハワイ大学の研究者らは、クジラ類のアプリケーションで良好に機能する複数種の画像認識モデルをトレーニングしました。

キーワード:画像認識 クジラ目 ArcFace

著者|ダザニー

編集|ゆっくり三陽

この記事は、HyperAI Super Neural WeChat パブリック プラットフォームで初めて公開されました~

クジラ目は海洋生態系の代表的な動物および指標生物であり、海洋生態環境の保護において極めて高い研究価値を持っています。従来の動物の識別では、現場で動物の写真を撮り、個体の出現時間と場所を記録する必要がありますが、これには多くの手順が含まれ、複雑なプロセスです。中でも、異なる画像から同じ人物を識別する画像照合には特に時間がかかります。

タインらによる 2014 年の研究では、1 年間に及ぶマダライルカ (Stenellalongirostris) の捕獲と放流調査において、画像照合に 1,100 時間以上の人的労働が費やされ、これはプロジェクト予算のほぼ 3 分の 1 に相当すると推定されています

最近、ハワイ大学 (ハワイ大学) のフィリップ T. パットンなどの研究者は、50,000 枚を超える写真 (24 種の鯨類と 39 のカテゴリーを含む) を使用して、顔認識に基づいて ArcFace 分類ヘッドをトレーニングしました。複数種の画像認識モデル。このモデルは、テスト セットで 0.869 の平均適合率 (MAP) を達成しました。これらのうち、10 のディレクトリの MAP スコアは 0.95 を超えていました。

この研究は、「写真識別への深層学習アプローチが 20 種類の鯨類で高いパフォーマンスを実証」というタイトルで「Methods in Ecology and Evolution」誌に掲載されました。

研究成果は『Methods in Ecology and Evolution』に掲載されました。

用紙のアドレス:

https://besjournals.onlinelibrary.wiley.com/doi/full/10.1111/2041-210X.14167

 

データセット: 25 種、39 カタログ

データ紹介 

Happywhale と Kaggle は世界中の研究者と協力して、クジラ類の大規模な複数種のデータセットを構築しました。このデータセットは、背びれ/横向きの画像から個々のクジラ目を識別するようチームに依頼する Kaggle コンテスト用に収集されました。データ セットには 25 種 (種) の 41 のカタログ (カタログ) が含まれており、各カタログには 1 つの種が含まれており、カタログ内のいくつかの種は繰り返し表示されます。

この調査では、2 つの競合ディレクトリが削除されました。1 つはトレーニングとテスト用の低品質の画像が 26 枚しかなく、もう 1 つはテスト セットがなかったためです。最終的なデータセットには、50,796 個のトレーニング画像と 27,944 個のテスト画像が含まれており、そのうち 50,796 個のトレーニング画像には 15,546 個の ID が含まれています。これらの ID のうち、9,240 (59%) にはトレーニング画像が 1 つだけあり、14,210 (91%) にはトレーニング画像が 5 つ未満ありました。

データセットとコードのアドレス:

GitHub - knshnb/kaggle-happywhale-1st-place

トレーニングデータ 

複雑な画像の背景の問題に対処するために、一部の出場者は、画像内のクジラ目を自動的に検出し、その周囲に境界ボックスを描画できる画像トリミング モデルをトレーニングしました。下の図に見られるように、このプロセスには 4 つのクジラ検出器が含まれており、YOLOv5 や Detic などの異なるアルゴリズムを使用しています。検出器の多様性によりモデルの堅牢性が向上し、実験データを強化できます。

図 1: 競技セットの 9 カテゴリーの画像と 4 つの鯨類検出器によって生成された境界ボックス

各境界ボックスは、赤の場合は 0.60、オリーブ グリーンの場合は 0.15、オレンジの場合は 0.15、青の場合は 0.05 の確率でクロップを生成します。トリミング後、研究者らは、EfficientNet-B7 バックボーンとの互換性を確保するために、各画像のサイズを 1024 x 1024 ピクセルに変更しました。

サイズ変更後、アフィン変換、サイズ変更とトリミング、グレースケール、ガウスぼかしなどのデータ拡張手法を適用して、モデルの深刻な過剰適合を回避します。

データ拡張とは、トレーニング プロセス中に元のデータを変換または拡張してトレーニング サンプルの多様性と量を増やし、それによってモデルの一般化能力と堅牢性を向上させることを指します。

 

モデルのトレーニング: 種と個体の認識の二面性

以下の図はモデルの学習プロセスを示しており、図のオレンジ色の部分に示すように、研究者は画像認識モデルを背骨、首、頭の 3 つの部分に分割しました。

図 2: 複数種の画像認識モデルのトレーニング パイプライン

図の最初の行は前処理ステップ (例としてマイルカ Delphinus delphis 画像を取り上げます) であり、 4 つのターゲット検出モデルによって作物が生成され、データ強調ステップによって 2 つのサンプル画像が生成されます。

一番下の行は、背骨から首、頭までの画像分類ネットワークのトレーニング ステップを示しています

画像はまずネットワーク経由でバックボーンに入ります。過去 10 年間の一連の研究により、ResNet、DenseNet、Xception、MobileNet など、数十の人気のあるバックボーンが生み出されてきました。EfficientNet-B7 は、鯨類アプリケーションで最高のパフォーマンスを発揮することが検証されました

Backbone は画像を取得した後、一連の畳み込み層とプーリング層を通じて画像を処理し、画像の簡素化された 3D 表現を生成します。Neck は、この出力を特徴ベクトルとも呼ばれる 1 次元ベクトルに変換します。

どちらの頭部モデルも、種の識別と個体の識別のために、特徴ベクトルをクラス確率、つまり Pr(種) または Pr(個体) に変換しますこれらの分類ヘッドは、動的マージンを備えたサブセントリック ArcFace と呼ばれ、一般に複数種の画像認識シナリオに適用できます。

 

実験結果:平均精度 0.869

テスト セット (24 種の 39 カテゴリー) 内の 21,192 枚の画像に対して予測が行われ、平均精度 (MAP) 0.869 が達成されました。以下の図に示すように、平均精度は種によって異なり、トレーニング画像やテスト画像の数には依存しません。

図 3: テスト セットの平均精度

上部のパネルには、用途別 (つまり、トレーニングまたはテスト) に応じて、種ごとの画像の数が表示されます。複数のカタログを持つ種は x で表されます。

この図は、このモデルのパフォーマンスがハクジラの識別では良好で、ヒゲクジラの識別では悪かったことを示しており、平均を上回るスコアを記録したのは 2 種のヒゲクジラのみでした。

複数カテゴリの種のモデルのパフォーマンスにも違いがありました。たとえば、ミンククジラ (Balaenoptera acutorostrata) の異なるカテゴリ間の MAP スコアは、それぞれ 0.79 と 0.60 です。シロイルカ (Delphinapterus leucas) やシャチなどの他の種でも、カタログ間でパフォーマンスに大きな違いが見られました。

この点に関して、研究者らは、このカテゴリレベルのパフォーマンスの違いを説明できる理由を見つけられませんでしたが、曖昧さ、一意性、マーカーの混乱、距離、コントラスト、スプラッシュなどの定性的指標が、データの精度スコアに影響を与える可能性があることを発見しました。画像。

図 4: ディレクトリレベルのパフォーマンスの違いに影響を与える可能性のある変数

図内の各点は競合データセット内のカテゴリを表し、ピクセルは画像と境界ボックスの幅を表します。個別の ID は、トレーニング セット内の個別の個人の数を表します。ただし、カタログレベルの MAP と平均画像幅、平均境界ボックス幅、トレーニング画像の数、個別の個体の数、および個体ごとのトレーニング画像の数の間に明確な相関関係はありません。

上記に基づいて、研究者らは、このモデルを予測に使用すると、7 種を表す 10 カタログの平均精度が 0.95 よりも高く、従来の予測モデルよりもパフォーマンスが優れていることを提案しました。モデルは個人を正確に識別できます。さらに研究者らは、実験中に鯨類研究における注意すべき7つのポイントもまとめた。

  1. 背鰭の識別が最もよく行われました。
  2. 個別の機能が少ないディレクトリはパフォーマンスが低下します。
  3. 画質は重要です。
  4. 色で動物を識別するのは難しい場合があります。
  5. トレーニングセットと比較して特性の差が大きい種のスコアは低くなります。
  6. 前処理は依然としてハードルです。
  7. 動物マーカーの変動はモデルのパフォーマンスに影響を与える可能性があります。

 

Happywhale: 鯨類研究のための市民科学プラットフォーム

この記事のデータセットの紹介で言及されている Happywhale は、大規模なデータセットのロックを解除し、写真 ID の迅速な照合を容易にし、一般の人々の科学的関与を生み出すことを目的として、鯨類の画像を共有するための市民科学プラットフォームです。

Happywhale公式サイトアドレス:

ハッピーホエール

Happywhale は 2015 年 8 月に設立されました。その共同創設者であるテッド チーズマンは博物学者です。彼はカリフォルニア州モントレー湾で育ちました。彼は子供の頃からホエールウォッチングが大好きで、南極と南アフリカに何度も旅行しました。ジョージア島Expedition は、南極探検と極地の観光管理で 20 年以上の経験を持っています。

Happywhale 共同創設者テッド チーズマン

2015年、テッドは21年間働いてきたチーズマンズ・エコロジー・サファリズ(博物学者でもあるテッドの両親が1980年に設立したエコ旅行代理店)を辞め、ハッピーホエール・プロジェクトに専念し、理解を深め保護するための科学研究データを収集した。クジラ  

わずか数年で、Happywhale.com は鯨類研究分野への最大の貢献者の 1 つとなり、膨大な量の鯨類識別画像に加えて、鯨類の移動パターンを理解するための多くの洞察を提供しました。

参考リンク:

[1] https://baijiahao.baidu.com/s?id=1703893583395168492

[2]https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0086132

[3]https://phys.org/news/2023-07-individual-whale-dolphin-id-facial.html#google_vignette

[4]https://happywhale.com/about

この記事は、HyperAI Super Neural WeChat パブリック プラットフォームで初めて公開されました~

おすすめ

転載: blog.csdn.net/HyperAI/article/details/132314748