[コンピュータビジョン | 画像分類] 画像分類に一般的に使用されるデータセットとその紹介 (12)

記事ディレクトリ

一、SIDD-Image (セグメント化された侵入検知データセット)

これは、初の画像ベースのネットワーク侵入検知データセットです。この大規模なデータセットには、アジアのさまざまな国の 15 の異なる観測地点からのネットワークトラフィックプロトコルベースの通信の画像が含まれています。このデータセットは、無害なネットワークトラフィックから 2 つの異なるタイプの異常を識別するために使用されます。サイズ 48×48 の各画像には、128 秒のマルチプロトコル通信が含まれています。SIDD データセットは、機械学習ベースのネットワーク侵入検知、非独立同一分散フェデレーテッドラーニングなど、幅広いタスクに適用できます。

ここに画像の説明を挿入します

2. スポーツ10

ゲームデータセットには、アメリカンフットボール、バスケットボール、自転車レース、レーシング、格闘、ホッケー、サッカー、卓球、テニスの 10 スポーツカテゴリの 175 のビデオゲームをカバーする 100,000 枚のゲーム画像が含まれています。

メニュー/トランジションフレームを削除し、ゲームプレイシーケンスのみを含む画像を手作業で厳選しました。

ゲームは、レトロ (アーケードスタイル、1990 年代以前)、モダン (2000 年代頃)、フォトリアル (2010 年代後半頃) の 3 つのビジュアルスタイルカテゴリに分類されます。

ここに画像の説明を挿入します

3. ストリーム-51

ストリーム分類用の新しいデータセットは、51 の異なるオブジェクトクラスとトレーニング分布外の追加の評価クラスからの時間的に相関した画像で構成され、新規性認識をテストするために使用されます。

四、ASIRRA ((動物種画像認識によるアクセス制限)

Web サービスは、人間にとっては簡単に解決できるが、コンピューターにとっては困難な課題によって保護されていることがよくあります。この課題は、CAPTCHA (コンピュータと人間を区別するための完全に自動化された公開チューリングテスト) または HIP (ヒューマンインタラクティブプルーフ) と呼ばれることがよくあります。HIP は、電子メールやブログのスパムの削減、Web サイトのパスワードに対するブルートフォース攻撃の防止など、さまざまな目的で使用されます。

Asirra (アクセス制限付き動物種画像認識) は、ユーザーに猫と犬の写真を識別するよう求めることで機能する HIP です。この作業はコンピュータにとっては困難ですが、人間は迅速かつ正確にこの作業を完了できることが研究で示されています。面白いと思った人も多かったです！Asirra インターフェイスの例を次に示します。

Asirra は、ホームレスのペットの家探しを専門とする世界最大の Web サイトである Petfinder.com との提携においてユニークです。彼らは、全米の何千もの動物保護施設で人々が手動で分類した 300 万以上の犬と猫の画像を Microsoft Research に提供しました。幸いなことに、Kaggle はこのデータのサブセットを楽しみと研究の目的で提供しています。

5. アドネット

AdvNet は、交通標識画像のデータセットです。具体的には、最先端のニューラルネットワークベースの認識システムを欺くことができる敵対的な交通標識画像 (つまり、表面にステッカーが貼られた交通標識画像) や、ステッカーのないきれいな交通標識画像が含まれます。

AdvNet を使用する場合は、次の論文を引用してください。

Y. カンタロス、T. カーペンター、K. スリダール、I. リー、J. ワイマー: 「知覚システムに対する敵対的なデジタルおよび物理入力のリアルタイム検出器」、第 12 回 ACM/IEEE サイバーフィジカルシステム国際会議 (ICCPS) 、2021年

ここに画像の説明を挿入します

六、BCNB（早期乳がんコア針生検 WSI）

乳がん（BC）は、世界中で女性の健康に対する最大の脅威となっています。臨床的には、腋窩リンパ節 (ALN) 転移や、ER や PR などの他の腫瘍の臨床的特徴を特定することは、BC 患者の予後を評価し、治療を導く上で非常に重要です。

いくつかの研究は、臨床病理学的データと遺伝子検査スコアを使用して、ALN 状態およびその他の腫瘍の臨床的特徴を予測することを目的としています。しかし、これらの方法は、遺伝子検査の的中率が比較的低く、コストが高いため、制限されることがよくあります。近年、ディープラーニング（DL）により、医用画像上で高スループットな特徴抽出を実行し、原発腫瘍の特徴と上記の状態との相関関係を解析できる計算病理学の急速な発展が可能になっています。現在まで、原発性 BC サンプルの WSI に基づいた ALN 転移およびその他の腫瘍の臨床的特徴の術前予測に関する関連研究はありません。

私たちの論文では、早期乳がんコア生検 WSI (BCNB) の新しいデータセットを紹介します。これには、早期乳がん患者のコア針生検全断面画像 (WSI) と対応する臨床データが含まれます。WSI は、患者関連の情報をすべて知らされていない 2 人の独立した経験豊富な病理学者によって検査され、注釈が付けられました。

このデータセットに基づいて、マルチインスタンス学習（MIL）を使用して ALN 転移状態を術前予測するための深層学習アルゴリズムを研究し、独立したテストコホートで 0.831 という最高の AUC を達成しました。詳細については、論文をご覧ください。

1,058 人の患者の WSI があり、WSI では一部の腫瘍領域のみに注釈が付けられています。WSI に加えて、年齢、腫瘍サイズ、腫瘍の種類、ER、PR、HER2、HER2 発現、組織学的グレード、手術、Ki67、分子サブタイプ、リンパ節転移の数、転移性などの各患者の臨床的特徴も提供します。腋窩リンパ節（ALN）の状態。データセットは感度を下げられており、患者の個人情報は含まれていません。

このデータセットに基づいて、私たちの論文では、弱い教師付き分類タスクである腋窩リンパ節 (ALN) 転移状態の予測を研究します。ただし、組織学的グレード、分子サブタイプ、HER2、ER、PR の予測など、私たちのデータセットに基づく他の研究も実行可能です。私たちはあなたの研究の特定の内容を制限せず、私たちのデータセットに基づくあらゆる研究を歓迎します。

このデータセットは教育および研究のみを目的としており、商用および臨床用途は許可されていないことに注意してください。このデータセットの使用は、ライセンス契約に従う必要があります。

ここに画像の説明を挿入します

７、Deep PCB（ディーププリント基板）

ディープ PCB
データセットリンク:
データセットには 1,500 の画像ペアが含まれており、それぞれが欠陥のないテンプレート画像と位置合わせされたテスト画像で構成され、最も一般的な 6 つの PCB 欠陥タイプ (オープン、短絡、ラットバイト、支線) の位置が注釈付けされています。、ピンホール、その他の銅。
データセットの説明
画像セット
このデータセット内のすべての画像は、1 mm あたり約 48 ピクセルの解像度を持つリニアスキャン CCD から取得されました。
上記の方法で、サンプル画像から欠陥のないテンプレート画像を手動で検査して除去します。
テンプレート画像とテスト画像の元のサイズは約 16k x 16k ピクセルです。
次に、それらはサイズ 640 x 640 の多数のサブ画像に切り取られ、テンプレートマッチング技術によって位置合わせされます。
次に、照明の干渉を避けるために二値化を採用するためのしきい値が慎重に選択されます。
前処理アルゴリズムは特定の PCB 欠陥検出アルゴリズムに基づいて異なる場合がありますが、画像レジストレーションおよびしきい値処理技術は、高精度の PCB 欠陥位置特定および分類のための一般的なプロセスであることに注意してください。
以下の図は、DeepPCB データセットからの 1 対の例を示しています。右側は欠陥のないテンプレート画像、左側は実際の注釈が付いた欠陥のあるテスト画像です。
画像の注釈
テスト画像内の各欠陥のクラス ID を持つ軸に合わせたバウンディングボックスを使用します。上の図に示すように、オープン回路、ショート、ネズミの噛み込み、バリ、ピンホール、およびその他の銅の 6 つの一般的なタイプの PCB 欠陥をマークしました。実際のテスト画像には欠陥がわずかしかないため、PCB の欠陥パターンに基づいて各テスト画像上のいくつかの人為的な欠陥を手動で主張します。その結果、640 x 640 の各画像に約 3 ～ 12 個の欠陥が生じます。PCB の欠陥数を下図に示します。1,000 枚の画像をトレーニングセットとして、残りをテストセットとして分離します。各アノテーション画像には同じ名前のアノテーションファイルがあり、たとえば、00041000_test.jpg、00041000_temp.jpg、00041000.txt はそれぞれテスト画像、テンプレート画像、および対応するアノテーションファイルです。テストイメージ上の各欠陥には、x1,y1,x2,y2,type の形式で注釈が付けられます。ここで、(x1,y1) と (x2,y2) は欠陥境界ボックスの左上隅と右下隅です。type は整数 ID で、その後に次の一致が続きます: 0-バックグラウンド (未使用)、1-オープン、2-ショート、3-ラットバイト、4-スパー、5-銅、6-ピンホール。

注釈ツールのソースコードは、./tools ディレクトリに配置されています。

ベンチマークは、
平均精度と F スコアを使用して評価されます。検出が正しいのは、検出された境界ボックスと同じカテゴリのグラウンドトゥルースボックスの間のユニット間の交差 (IoU) が 0.33 より大きい場合のみです。F スコアの計算式は次のとおりです。F スコア = 2PR/(P+R)。ここで、P と R は適合率と再現率です。F スコアはしきい値に依存することに注意してください。つまり、より良い結果を得るためにスコアのしきい値を調整できます。F スコアは mAP 基準ほど公平ではありませんが、モデルをデプロイするときに常にしきい値を指定する必要があり、すべてのアルゴリズムがターゲットのスコア評価を持っているわけではないため、より実用的です。したがって、F スコアと mAP の両方がベンチマークで考慮されます。

mAP と F-score の評価スクリプトは、Icdar2015 の評価スクリプトに若干の変更を加えたものです (最初にアカウントを登録できます)。ここでは、変更した評価スクリプトとテストセットの groundtruth gt.zip ファイルをevaluation/ディレクトリに配置します。次の手順に従って、独自のメソッドを評価できます。 * アルゴリズムを実行し、各イメージの検出結果を image_name.txt として保存します。image_name は gt.zip と同じである必要があります。アルゴリズムの各欠陥の出力説明が x1,y1,x2,y2,confidence,type ((x1,y1) と (x2,y2) である場合を除く) という形式を除いて、evaluation/gt.zip の形式に従う必要があります。境界ボックスの左上隅と右下隅が欠陥です。信頼度は、そのような検出に対する確信度を表す浮動小数点数です。type は文字列で、open、short、mousebite、spur、copper、pin-hole のいずれかである必要があります。カンマ以外のスペースは使用できないことに注意してください。* .txt ファイルを res.zip に圧縮します。(res.zip ファイルにはサブディレクトリを含めないでください) * 評価スクリプトを実行します: python script.py -s=res.zip -g=gt.zip

方法
このセクションのソースコードは、論文が受理され次第公開されます。

実験結果
ここでは、ディープニューラルネットワークに基づくモデルの結果をいくつか示します。私たちのモデルは、62FPS で 98.6% mAp、98.2% F スコアを達成しました。論文が受理され次第、さらなる統計分析が公開される予定です。緑色の境界ボックスは、PCB 欠陥の予測位置であり、各境界ボックスの上部に信頼レベルが示されています。

ここに画像の説明を挿入します

8、Endotect ポリープセグメンテーションチャレンジデータセット

この課題は 3 つのタスクで構成され、それぞれが臨床使用の異なる要件を対象としています。最初のタスクは、消化管画像を 23 の異なるカテゴリに分類することです。2 番目のタスクは、各画像の処理にかかった時間によって測定される効率的な分類に焦点を当てます。最後のタスクには、ポリープの自動セグメンテーションが含まれます。

このデータセットを使用する場合は、「EndoTect 2020 Challenge: 内視鏡分類、セグメンテーション、および推論時間の評価と比較」を引用してください。

ここに画像の説明を挿入します

九、FMD（素材）（Flickr素材データセット）

シャラン、ラヴァーニャ、ルース・ローゼンホルツ、エドワード・アデルソン。「物質の認識: 一目で何が見えるか?」》 Journal of Vision 9.8 (2009): 784-784。
http://people.csail.mit.edu/celiu/CVPR2010/FMD/FMD.zip

十、画像・動画広告

画像およびビデオ広告のコレクションは、64,832 個のイメージ広告を含む画像データセットと 3,477 個の広告を含むビデオデータセットで構成されます。データには、広告のテーマや感情をカバーする豊富な注釈、視聴者がどのような行動をとるように促されているかを説明する質問と回答、視聴者を説得するために広告によって提示された推論 (「この広告に基づいて何をすべきか」、「「なぜ私がこれをしなければならないのですか？」）、また広告における象徴的な言及（例えば、鳩は平和の象徴）。