スキル学習 | 画像アノテーションの基本内容の紹介

「データ分析がなければ、企業は目が見えず、耳が聞こえず、高速道路を走る鹿のようにウェブを歩き回ることになります。」

— ジェフリー・ムーア

先週共有された画像データ注釈ツールは、多くの学生の注目を集めました。同時に、基礎も経験もゼロの友人も、画像注釈の基本的な内容を理解したいと表明しました。今日は、Xiao A がその一部を共有します。 。

 画像データのアノテーション

すべてのデータ サイエンス タスクにはデータが必要です。具体的には、システムに供給されるクリーンでわかりやすいデータです。画像に関しては、コンピュータは人間の目に見えるものを認識する必要があります。

たとえば、人間には物体を認識して分類する能力があります。同様に、コンピューター ビジョンを使用して、受け取った視覚データを解釈することもできます。ここで画像の注釈が登場します。

画像の注釈は、コンピュータ ビジョンにおいて重要な役割を果たします。画像注釈の目的は、タスクに関連したタスク固有のラベルを提供することです。これには、テキストベースのラベル (クラス)、画像上に描画されたラベル (つまり、境界線)、さらにはピクセル レベルのラベルが含まれる場合があります。以下では、この範囲のさまざまなアノテーション手法を検討します。

AI は私たちが思っている以上に人間の介入を必要とします。高精度のトレーニング データを準備するには、正しい結果を得るために画像にアノテーションを付ける必要があります。データのアノテーションには、多くの場合、特定のドメインの専門家のみが提供できる高度なドメイン知識が必要です。

注釈を必要とするコンピュータ ビジョン タスク:

画像分類

ターゲットの検出

ライン/エッジ検出

分割

ポーズ予測/キーポイント認識

1 画像の分類

画像分類は物体検出とは異なります。オブジェクト検出の目的はオブジェクトを識別して位置を特定することですが、画像分類の目的は特定のオブジェクト クラスを識別して識別することです。この使用例の一般的な例は、猫と犬の写真の分類です。アノテーターは、犬の画像には「dog」、猫の画像には「cat」というクラス ラベルを割り当てる必要があります。

2 物体検出

オブジェクト検出には、2D および 3D バウンディング ボックスという 2 つの主な手法があります。

ポリゴンオブジェクトの場合は、ポリゴンメソッドを使用できます。詳しく説明しましょう。

2D バウンディング ボックス

この方法では、検出されたオブジェクトの周囲に長方形のボックスを描画するだけで済みます。これらは、画像内のオブジェクトの位置を定義するために使用されます。境界線は、長方形の左上隅の x、y 座標と右下隅の x、y 座標によって決定できます。

長所と短所:

ラベル付けは素早く簡単に行えます。

オブジェクトの向きなど、多くのアプリケーションにとって重要な情報を提供できません。

オブジェクトの一部ではない背景ピクセルが含まれます。これはトレーニングに影響を与える可能性があります。

3D 境界ボックスまたは立方体

2D バウンディング ボックスと似ていますが、ターゲットの深さも表示できる点が異なります。この注釈は、2D 画像平面上の境界ボックスを 3D 直方体に逆投影することによって実現されます。これにより、システムは 3 次元空間内の体積や位置などの特徴を区別できるようになります。

長所と短所:

オブジェクト指向に関する問題を修正しました。

オブジェクトが遮蔽されると、このアノテーションは境界ボックスの寸法を想像することができ、それがトレーニングに影響を与える可能性があります。

このような注釈には背景ピクセルも含まれており、トレーニングに影響を与える可能性があります。

ポリゴン

場合によっては、不規則な形状のオブジェクトにマークを付ける必要があります。この場合、ポリゴンが使用されます。注釈を付けるときにオブジェクトのエッジをマークするだけで、検出対象のオブジェクトの完璧な輪郭を得ることができます。

長所と短所:

多角形マーカーの主な利点は、背景のピクセルを排除し、オブジェクトの正確な寸法を取得できることです。

オブジェクトの形状が複雑な場合、ラベルを付けるのは非常に時間がかかります。

注: ポリゴン法は、オブジェクト形状のセグメンテーションにも使用されます。セグメンテーションについては以下で説明します。

3 ライン/エッジ検出 (ラインとスプライン)

ラインとスプラインは、境界を画すときに便利です。ある領域を別の領域から区別するピクセルにはラベルが付けられます。

長所と短所:

このアプローチの利点は、ライン上のピクセルがすべて連続している必要がないことです。これは、破線や部分的に隠れたオブジェクトを検出するのに役立ちます。

画像内の線に手動でラベルを付けるのは、特に画像内に多数の線がある場合、非常に面倒で時間がかかります。

これにより、オブジェクトがたまたま位置合わせされている場合に、誤解を招く結果が生じる可能性があります。

4 ポーズ予測・キーポイント認識

多くのコンピューター ビジョン アプリケーションでは、入力画像内の重要な注目点を識別するためにニューラル ネットワークが必要になることがよくあります。これらのポイントをランドマークまたはキーポイントと呼びます。このアプリケーションでは、ニューラル ネットワークがキー ポイントの座標 (x, y) を出力するようにします。

5 分割

画像セグメンテーションは、画像を部分に分割するプロセスです。画像セグメンテーションは、画像内のオブジェクトと境界をピクセル レベルで位置特定するために一般的に使用されます。画像セグメンテーションには多くの方法があります。

セマンティック セグメンテーション: セマンティック セグメンテーションは、画像内の各ピクセルがクラスに割り当てられる、ピクセル レベルの注釈を必要とする機械学習タスクです。すべてのピクセルには意味的な意味が含まれています。これは主に、環境のコンテキストが非常に重要な状況で使用されます。

インスタンス セグメンテーション: インスタンス セグメンテーションは、画像内の各オブジェクトの各インスタンスをピクセル レベルで識別する画像セグメンテーションのサブタイプです。インスタンス セグメンテーションとセマンティック セグメンテーションは、画像セグメンテーションにおける 2 つの粒度レベルのうちの 1 つです。

パノプティック セグメンテーション: パノプティック セグメンテーションはセマンティック セグメンテーションとインスタンス セグメンテーションを組み合わせたもので、すべてのピクセルにクラス ラベルが割り当てられ、すべてのターゲット インスタンスが一意にセグメント化されます。

画像注釈の使用例

では、画像アノテーションをどのように使用して、マシンモデルが業界固有のタスクを実行できるようにできるでしょうか?

小売:  2D 境界ボックスを使用して製品の画像に注釈を付けることができ、機械学習アルゴリズムでコストやその他の属性を予測するために使用できます。ここでは画像分類も役に立ちます。

医療:ポリゴンを使用して医療用 X 線写真の臓器にラベルを付けることができるため、深層学習モデルにフィードして X 線写真の変形や欠陥をトレーニングできます。これは画像注釈の最も重要なアプリケーションの 1 つであり、医療専門家の高度な専門知識が必要です。

自動運転車:これは、画像注釈を適用できるもう 1 つの重要な領域です。セマンティック セグメンテーションを使用して画像内のすべてのピクセルにラベルを付けると、車両が道路上の障害物を認識できるようになります。この分野の研究はまだ進行中です。

感情検出:これは、人の感情 (幸せ、悲しみ、または自然) を検出するために使用できるマイルストーンです。これは、特定のコンテンツに対する被験者の感情的反応を評価するために適用できます。

製造業:ラインとスプラインを使用して工場のイメージをマークできます。ラインはロボットに従って作業します。これにより、生産プロセスの自動化に役立ち、人的労力を最小限に抑えることができます。

画像アノテーションのいくつかの課題

時間の複雑さ:画像に手動でラベルを付けるには多くの時間がかかり、機械学習には大量のデータ セットが必要で、これらの画像ベースのデータ セットに効果的にラベルを付けるには非常に時間がかかります。

計算の複雑さ:機械学習では、モデルを実行するために正確にラベル付けされたデータが必要です。アノテーターが画像にアノテーションを付けるときに何らかのエラーを挿入すると、トレーニングに影響を及ぼし、すべての努力が無駄になる可能性があります。

ドメインの知識:前述したように、画像のアノテーションには通常、ドメイン固有の高レベルのドメイン知識が必要です。したがって、何にアノテーションを付けるかを知っているアノテーターと、その分野の専門家が必要です。

データラベル付けのためのシステム学習

現在、人工知能の急速な発展と関連する国家政策の精力的な推進に伴い、体系的に学習できる人工知能関連の資格コースがいくつかあり、同時に対応する試験に合格すると国家資格の職業証明書を取得できるようになりました。 。

人的資源・社会保障省「人工知能トレーナー」

工業情報化部「人工知能データラベリング技術」

お問い合わせ

上記の職業証明書は公式ウェブサイトで照会できますが、詳細を知りたい場合、または関連するビジネス協力について連絡したい場合は、プライベートメッセージを送信できます。

人工知能に関する質問や経験を共有することも歓迎します。Xiao A は、誰もが共有したいと思うトピックをいくつか選びますので、忘れずにフォローしてください。

人工知能産業応用研究所

シナリオを使用して AI エコロジーを定義し、業界、産業構造、社会開発の需要動向、人材不足ニーズの変化に適応する業界の実装を促進し、業界と教育の統合、産業アプリケーションの人材トレーニング、アプリケーションのコレクションを作成します。シナリオ開発、産業生態育成、産業プロジェクトの育成と革新、国際人工知能応用指向産業育成基地への投資。人工知能産業チェーンの生態学的プラットフォームを構築することで、人工知能技術を促進して多様なビジネスシナリオに対応する業界アプリケーション標準を形成し、より完全なAI産業チェーンエコロジーを備えた人工知能産業の実装を促進および促進します。

おすすめ

転載: blog.csdn.net/aiinstitute/article/details/131577712