画像アノテーションとは何ですか? その種類と用途

画像アノテーションとは何ですか?

画像の注釈は、ユーザーが操作する多くの人工知能製品の基礎であり、コンピューター ビジョン (CV)の分野における重要なプロセスの 1 つです。画像アノテーションのプロセス中、データ アノテーターはラベルまたはメタデータを使用して、AI モデルが認識するように学習したデータの特徴にラベルを付けます。これらの画像のラベル付きデータは、ラベルのない新しいデータが提示されたときにコンピューターがこれらの特徴を認識できるようにするマシン モデルをトレーニングするために使用されます。子供の頃、「ワンワン」と吠える生き物が「犬」であることは知っていました。私たちはゆっくりと成長し、お尻を外に向けてかくれんぼをするバカを「エルハ」、お尻をひねって歩くのを「コーギー」、飼い主の「ハチ公」を知りました。死んでも駅に張り付いているのは秋田犬だった。私たちは犬が猫と違うことを知っていますし、大人になるとモルモットに似たかわいいウサギがいることにも気づきます。人間と同様、コンピューターも無数の「動物の知識」を通じて動物を分類する方法を学習する必要があります。画像の注釈は、コンピュータが理解できる方法でこの「知識」を提供することを目的としています。人工知能に取り組む企業が利用できる画像データの量が増え続けるにつれ、画像の注釈に依存するプロジェクトの需要が急増しています。包括的かつ効率的な画像アノテーション プロセスを作成することは、機械学習分野でビジネスを行う企業にとってますます重要になっています。  

画像の注釈の種類

画像の注釈の種類

 画像の注釈には 3 つの一般的なタイプがあり、企業はプロジェクトの複雑さと適用可能なアプリケーション シナリオに応じて 1 つの注釈タイプを選択できます。いずれのタイプでも、使用される画像データの品質が高いほど、実現される AI 予測の精度は高くなります。

1. 画像の分類

分類は、1 つの画像に 1 つのラベルのみを適用する、画像に注釈を付ける簡単かつ迅速な方法です。たとえば、食料品店の棚の画像のコレクションを参照して分類し、どの棚に炭酸飲料が入っていて、どの棚に炭酸飲料が入っていないかを判断したい場合があります。このアプローチは、上記の例のような抽象的な情報、時刻、画像内に車が存在するかどうかを収集する場合、またはそもそも基準に適合しない画像を除外する場合に最適です。分類は、単一の高レベルのラベルを提供するという点で画像に注釈を付ける簡単な方法ですが、画像内のオブジェクトがどこにあるかを示さないため、私たちが注目している 3 つのタイプのあいまいさでもあります。

2. ターゲットの検出

オブジェクト検出は、アノテーターが画像内の指定された特定のオブジェクトをマークすることです。したがって、分類法によって画像がソーダを含むものとして分類された場合、このアプローチでは、画像内のソーダがどこにあるか、または探しているファンタ ソーダがどこにあるかがさらに示されます。オブジェクトの検出には、次のアノテーション手法など、いくつかの方法が使用できます。

  • 2D 境界ボックス:アノテーターは、長方形と正方形を適用してターゲット オブジェクトの位置を定義します。これは、画像アノテーションの分野で一般的に使用される手法の 1 つです。
  • 3D 直方体または 3D 境界ボックス:アノテーターは、立方体をターゲット オブジェクトに適用して、オブジェクトの位置と深さを定義します。
  • 多角形のセグメンテーション:ターゲット オブジェクトが非対称でボックスに簡単に収まらない場合、アノテーターは複雑な多角形を使用してオブジェクトの位置を定義します。
  • 線とスプライン:アノテーターは、画像内の重要な境界線と曲線を特定して領域を分離します。たとえば、アノテーターは自動運転車の画像アノテーション プロジェクトで高速道路の個々の車線にラベルを付けることができます。

オブジェクト検出ではボックスやラインが重なり合う可能性があるため、この方法はまだ精度が高くありません。これはオブジェクトの大まかな位置を提供し、比較的高速なラベル付けプロセスです。

3. セマンティックセグメンテーション

セマンティック セグメンテーションは、画像の各コンポーネントが 1 つのクラスのみに属することを保証することで、オブジェクト検出の重複問題を解決します。平たく言えば、セマンティック セグメンテーションとは、ターゲットの分類ではなく、領域内のピクセルを分類することです。したがって、アノテーターは各ピクセルにクラス (歩行者、車、標識など) を割り当てる必要があります。これは、特定のオブジェクトが遮られている場合でも、AI モデルが特定のオブジェクトを認識して分類する方法をトレーニングするのに役立ちます。たとえば、画像の一部を遮るショッピング カートがある場合、セマンティック セグメンテーションを使用して、ファンタ ソーダがどのように見えるかをピクセル レベルまで識別できるため、モデルは遮蔽されていても実際にファンタ ソーダであることを認識できます。 。なお、画像のアノテーション方法は上記3種類に限定されるものではない。その他の方法には、ランドマーク アノテーションなど、顔認識に特化したタイプが含まれます(アノテーターは身体ポーズ ポイント アノテーションを使用して、目、鼻、口などの特徴を描画します)。画像転写は、もう 1 つの一般的なラベル付け方法です。これは、データにマルチモーダル情報が含まれている場合、つまり、画像内にテキストがあり、そのテキストを抽出する必要がある場合に使用されます。  

画像注釈の一般的なアプリケーション シナリオ

現在画像注釈を利用しているすべてのアプリケーションのリストを作成するには、何千ページもかかるでしょう。現時点では、主要な業界全体でより一般的な使用シナリオに焦点を当てます。

農業

ドローンと衛星画像の助けを借りて、農家は AI を活用して、作物収量の推定、土壌状態の評価など、無限のメリットを得ることができます。John Deere は、画像注釈の興味深い例を提供しています。同社はカメラ画像に注釈を付けて、ピクセルレベルで雑草と作物を区別しています。次に、これらの注釈付き画像データを使用して、畑全体ではなく、雑草が生えているエリアにのみ殺虫剤を散布した結果、年間の殺虫剤コストが大幅に節約されました。

医療

医師は AI ソリューションを使用して診断と治療を支援しています。たとえば、AI は放射線画像を検査して、特定のがんが存在する可能性を判断できます。一例では、チームは、機械が自動的に違いを区別できるようになるまで、癌性病変と非癌性病変がラベル付けされた何千もの画像スキャンからのデータを使用してモデルをトレーニングしました。AI は実際には医師に取って代わるものではありませんが、大腸内視鏡検査における病変診断の精度を向上させることができます。コンピューター ビジョンが医療分野にどのように適用されるかについて、Appen はウェビナーを作成しました。クリックして「コンピューター ビジョン テクノロジーが医療分野に力を与える方法」をご覧ください。

製造業

メーカーは、画像の注釈が倉庫内の在庫情報を取得するのに役立つことに気づきました。彼らは、製品の在庫切れや再入荷の時期を判断するために、感覚画像データを評価するコンピューターを訓練しています。メーカーによっては、画像注釈プログラムを使用して工場内のインフラストラクチャを監視することもあります。彼らのチームは、機器の画像データに注釈を付け、そのデータを使用して特定の欠陥や障害を認識するようにコンピューターをトレーニングし、より迅速な修理と全体的なメンテナンスの改善を推進します。

ファイナンス

金融業界は画像アノテーション プロジェクトの機能を十分に活用しているとは言えませんが、この分野で波紋を広げている企業がまだいくつかあります。たとえば、Caixabank は顔認識技術を使用して、ATM からお金を引き出す顧客の身元を確認します。これは、目や口などの顔の特徴をマッピングする「顔キーポイント アノテーション」と呼ばれる画像アノテーション プロセスを通じて行われます。顔認識は、より迅速かつ正確な本人確認方法を提供し、詐欺の可能性を減らします。画像注釈技術は、モバイル デバイス ( OCR 技術)を介して預けられた小切手や払い戻し対象の文書にマークを付けるためにも広く使用されています

小売り

画像の注釈も、さまざまな AI のユースケースに不可欠です。AI を使用して、顧客に「ジーンズ」の検索結果を提供するなど、特定の商品の正しい検索結果を提供したいと考えていますか? 製品カタログを参照してユーザーが望む結果を提供できるモデルを構築するには、画像アノテーションが必要です。いくつかの小売業者も店舗内でロボットを試験的に導入しています。これらのロボットは棚の画像を収集して、製品の在庫が少ないか在庫切れかを判断し、再注文するかどうかを決定します。ボットは、画像転写と呼ばれるプロセスを使用して「バーコード画像」をスキャンすることによって製品情報を収集することもできます。  

画像の注釈を簡単にする方法

AI モデルの構築が困難であるのと同様に、画像のアノテーションも非常に困難です。AI が適切に動作するには、大量の高品質のトレーニング データ (コンピューターが学習できるユースケースが多ければ多いほど、パフォーマンスが向上します)、このデータにラベルを付けるための多様なチーム、および実行するための包括的なデータ パイプラインが必要です多くの企業にとって、それに伴う時間、お金、人件費は非現実的に高額になることがよくあります。エンドツーエンドの画像注釈プロジェクトを完了するための社内リソースがないクライアントの場合、サードパーティ ベンダーの支援を求めるのが合理的です。これらのベンダーは、画像データ、アノテーター、ツール、専門家チームを提供して、この大規模な取り組みを支援できます。特に、画像にアノテーションを付ける場合には、一連の問題が頻繁に発生します。画像の照明が不十分であったり、対象の物体が隠れていたり、画像の一部が人間の目には認識できない場合があります。画像アノテーション プロジェクトを開始する前に、チームはプロセス中に遭遇するさまざまな問題を慎重に検討する必要があります。また、ラベルに名前を付け、カテゴリを区別する方法を慎重に検討する必要があります。これらの要因は、アノテーターのアノテーションの判断に影響を与え、最終的にはアノテーションの判断に影響を与える可能性があるためです。機械を混乱させます。類似しすぎるカテゴリを区別する基準をどのように作成するかは、チームによる慎重な検討が必要な問題です。正確な画像アノテーションプロジェクトを完了するためにチームをどのように正しく導くかによって、高品質のトレーニングデータが生成されるかどうかが決まります。これはまさにAI戦略投資を策定する上で不可欠なリンクです。  

Appen の画像アノテーション専門家 Liz Otto Hamel からの洞察

Appen は、クライアント機械学習ツールの画像注釈プロジェクトを支援する独自の専門家チームに依存しています。当社のプロダクト マネージャーの 1 人である Liz Otto Hamel は、Appen Data Annotation Platform が業界標準を超えて高品質の画像注釈機能とツールを提供できるよう支援します。リズは学術研究の経歴があり、スタンフォード大学で博士号を取得しています。画像注釈のニーズを評価し、満たすための彼女の提案は次のとおりです。

  • 範囲を定義します。まず、プロジェクトのビジネス目標を明確かつ厳密に定義します。ラベルのジオメトリ、メタデータ、オントロジー、形式などのラベル付きデータの要件は、プロジェクトのビジネス目標から決まります。ビジネス価値を利用して画像注釈プロジェクトを導くことは、作業の明確な方向性を維持するのに役立ちます。
  • 反復計画を作成します。ラベルを付ける必要があるデータセットの初期基準を作成し、パイロット実行を開始します。データのごく一部に自分でラベルを付けます。反復プロセス中に、プロジェクトによって開発された標準の特殊なケースを考慮する必要がある可能性があることがわかります。イテレーション計画により、チームはデータ アノテーション ベンダーと連携するようになります。サードパーティのアノテーション会社は、さまざまなアノテーション ユース ケースをカバーする複数のアノテーション ツールと専門知識を提供し、チームのニーズに応じて変更できます。
  • 統合計画を作成します。データ バイアス (モデルが実際に認識するデータの種類の変化) を防ぐには、新しいデータでモデルを継続的にトレーニングする、スケーラブルで自動化されたトレーニング データ パイプラインを構築する必要があります。統合計画により、チームはデータ アノテーション プロバイダーと協力することが促進され、サードパーティのアノテーション会社は、必要なトレーニング データの量の増加に応じて迅速に拡張できます。モデルを操作する対象ユーザーの数が増えるほど、モデルを最新の状態に保つために必要な画像アノテーションの量がより速く増加します。プロジェクトの開始時から統合計画を作成します。

 

おすすめ

転載: blog.csdn.net/Appen_China/article/details/131811738