AI ライフサイクルの各段階にわたる倫理的問題: データのラベル付け

AI が市場でより広く採用され、さまざまなユースケースでツールとして実装されるにつれて、より多くの課題が発生します。AI プロジェクトは、倫理的な AI とデータのバイアスの処理という長年にわたる重大な問題に直面しています。AI 開発の初期には、この問題は明らかではありませんでした。データ バイアスとは、データ セット内の要素が過剰または過小に表現されることです。偏ったデータを使用して AI または機械学習モデルをトレーニングすると、偏った不公平で不正確な結果が生じる可能性があります。Appen は、AI ライフサイクルの各段階で倫理的な AI データがどのようなものであるかを詳しく調査しています。データジャーニーのあらゆる段階で、データバイアスにつながる一般的なエラーが発生する可能性があります。ありがたいことに、こうした落とし穴を回避する方法があります。この一連の記事では、 AI ライフサイクルの次の 4 つのフェーズにおけるデータ バイアスについて調査します。

  • データ収集
  • データの準備
  • モデルのトレーニングと展開
  • 人工モデルの評価

すべてのデータセットが同じように作成されているわけではありませんが、AI モデルに最適で、最も有用で、最も信頼性の高いデータセットを作成できるように、AI ライフサイクルにおけるデータ倫理の複雑な問題を解決できるよう支援したいと考えています。  

データ準備における偏り

データを使用して AI モデルをトレーニングする前に、データが読み取り可能で使用可能である必要があります。AI データ ライフ サイクルの第 2 段階はデータ準備です。これは、生データのセットを取得し、並べ替え、ラベル付けし、クリーンアップしてレビューすることです。Appen は、手動ラベル付けや AI 自動データラベル付けなどのデータ準備サービスを顧客に提供します。この 2 つを組み合わせることで、バイアスを最小限に抑えた高品質のデータが得られます。データ準備段階では、まず各データがアノテーターによってチェックされ、ラベルまたは注釈が付けられます。データの種類に応じて、次のようなラベル付け方法が考えられます。

  • 画像内のオブジェクトの周囲に境界ボックスを追加する
  • 音声ファイルの文字起こし
  • 書かれたテキストをある言語から別の言語に翻訳する
  • テキストまたは画像ファイルに注釈を付ける

世界中のヒューマン アノテーターがデータのラベル付けを完了すると、データはデータ準備の次の段階である品質保証に進みます。品質保証プロセスでは、人間のアノテーターと機械学習モデルがデータの精度をチェックする必要があります。データがプロジェクトに適していない場合、またはラベルが間違っている場合、データはデータセットから削除されます。データ準備フェーズの終わりに、データセットはモデル トレーニング フェーズに入ります。データセットがこの段階に入る前に、データセットは一貫性があり、完全で、クリーンである必要があります。高品質のデータから高品質の AI モデルが作成されます。バイアスはさまざまな方法でデータ準備プロセスに導入され、倫理的な問題を引き起こし、それが AI モデルに持ち込まれる可能性があります。データ準備における最も一般的なタイプのデータ バイアスは次のとおりです。

  • データギャップ
  • データラベル付け担当者は十分なトレーニングを受けていない
  • 一貫性のないラベル付け
  • 個人的な偏見
  • データが多すぎる、または少なすぎる

データにギャップがある

AI データセットに潜むバイアスの最も一般的な例の 1 つは、データのギャップとデータの過小表現です。特定のグループまたはタイプのデータがデータセットに欠落している場合、データとその結果として得られる AI モデルの出力に偏りが生じる可能性があります。一般的なデータギャップには、少数派グループの過小評価が含まれます。データギャップは、特定のクラスのデータやまれなユースケースの例が過小評価されている可能性もあります。データ ギャップは多くの場合意図的ではないため、準備段階でデータをチェックしてこれらのデータ ギャップを検出することが不可欠です。より代表的なデータを追加することでデータ ギャップに対処しない場合、AI モデルのトレーニングに使用されるデータにデータ ギャップが存在し、その結果、モデルが生成する結果の精度が低くなります。

データ アノテーターは十分なトレーニングを受けていません

データ準備中にバイアスが導入されるもう 1 つの一般的な状況は、トレーニングされていないデータ アノテーターを使用してデータにアノテーションを付けることです。データラベル付け担当者のトレーニングが不十分で、自分たちの作業の重要性を理解していない場合、ラベル付けプロセス中にラベル付けエラーや手抜きが発生する可能性が高くなります。データ アノテーターに徹底的なトレーニングを提供し、監督をサポートすることで、データの準備中に発生する可能性のあるエラーの数を制限できます。データのラベル付けプロセス中に、トレーニングを受けていないデータラベル付け担当者は、ラベル付けの不一致や個人的な偏見など、さまざまな方法でバイアスを引き起こす可能性があります。

一貫性のないラベル付け

複数のアノテーターがデータセットにアノテーションを付ける場合は、各データ ポイントに一貫してアノテーションを付けるようにすべてのアノテーターをトレーニングすることが重要です。類似した種類のデータに一貫性のないラベルが付けられている場合、再現率バイアスが発生し、AI モデルの精度の低下につながります。

個人的な偏見

データ アノテーターがアノテーション プロセス中にバイアスを導入するもう 1 つの方法は、データ アノテーター自身の個人的なバイアスを組み込むことです。私たちはそれぞれ、周囲の世界について独自の偏見と理解を持っています。アノテーターの世界に対する独自の理解は、データに注釈を付けるのに役立ちますが、データにバイアスが生じる可能性があります。たとえば、アノテーターが感情的な画像に表情を付けた場合、2 つの異なる国のアノテーターが異なる注釈を提供する可能性があります。このようなバイアスはデータの準備に固有のものですが、包括的な品質保証プロセスを通じて制御できます。さらに、企業はデータラベル作成者に無意識の偏見を回避するためのトレーニングを提供し、データラベル付けに対するバイアスの影響を軽減するよう努めることもできます。

人間による注釈のみを使用するか、機械による注釈のみを使用する

以前は、データにラベルを付ける唯一の方法は、各データを手動で調べてラベルで注釈を付けることでした。最近では、機械学習プログラムでデータにラベルを付けたり、トレーニング データセットを作成したりできるようになりました。2 つのアノテーション方法をめぐる議論は常に激しく、どちらの方法が優れているのか? 私たちは、ヒューマン アノテーターを使用してデータに注釈を付けると同時に、機械学習プログラムを使用してデータ アノテーションの品質保証チェックを実行するという、2 つの側面からのアプローチを採用したいと考えています。そうすることで、最高品質のデータセットを構築できます。

データが多すぎる、または少なすぎる

準備中にデータを評価するときに考慮すべきもう 1 つの重要な点は、適切な量のデータがあることを確認することです。トレーニング データが少なすぎるか、多すぎる可能性があります。トレーニング データが少なすぎると、アルゴリズムはデータ内のパターンを理解できなくなります。これをアンダーフィッティングと呼びます。トレーニング データが多すぎると、どれがノイズでどれが実際のデータであるかを判断できないため、モデルの出力は不正確になります。モデルに多すぎるデータをフィードすることは、過学習と呼ばれます。AI モデルに適切なサイズのデータ​​セットを作成すると、モデルの出力の品質が向上します。 無関係なデータの除外 データの準備中に、データを注意深く調べて、将来のモデルに適さないデータをデータセットから削除することが重要です。最初は「無関係」に見えるデータ、または誰かにとって「無関係」に見えるデータでも、実際には無関係である可能性があるため、データを削除する前に必ず再確認してください。この段階で「重要ではない」データを削除すると、除外のバイアスが生じる可能性があります。データセットの一部が小さい、または珍しいからといって、それが重要ではないという意味ではありません。  

データ準備におけるバイアスの問題の解決策

データの準備中にデータセットにバイアスが導入される方法はさまざまですが、解決策も多数あります。以下に、データ準備中にバイアスを回避できるいくつかの方法を示します。

多様で代表的な従業員を雇用する

データ準備プロセスからバイアスを取り除く最も重要な方法の 1 つは、意思決定者と参加者の幅広い代表を確保することです。多様な労働力を雇用することは、AI トレーニング データセットの偏りを減らすのに大いに役立ちます。多様な従業員を雇用することが最初のステップであり、全従業員にアンコンシャス バイアスに関するトレーニングを提供することで、さらに一歩前進することができます。無意識の偏見トレーニングは、従業員が自分自身の個人的な偏見をより適切に特定し、ラベル付きデータから意識的にそれを探すのに役立ちます。

品質保証プロセスへのバイアスチェックの追加

データ準備におけるバイアスを減らすためにできることが 1 つだけあるとすれば、品質保証プロセスにバイアス チェックを追加することです。ほとんどの偏見は意図的ではありません。これは、誰もそれに気づいていない、あるいはわざわざ調べようとしないため、データにバイアスが入り込んでいることを意味します。品質保証プロセスにバイアス チェックを追加することで、バイアス チェックを意図的に行うことができます。これは、従業員がデータ内のバイアスを明確に探し、データが何を表現すべきで何を表現すべきでないかを批判的に考えるよう思い出させるのに役立ちます。従業員にアンコンシャス・バイアスに関するトレーニングを提供すると、データ準備中にバイアスを見つけて取り除くことが容易になります。

ラベラーに十分な補償と公正な待遇を提供する

AI データにはバイアスが蔓延しています。データのギャップを特定するには、鋭い観察力と徹底したトレーニングが必要です。企業が AI トレーニング データセットの偏りに対処する簡単な方法の 1 つは、データ アノテーターが十分な報酬を受け、公平に扱われるようにすることです。給与の高い仕事に就いている従業員は、高品質のコンテンツの制作に集中する傾向があります。企業が従業員を大切にすると、従業員は質の高い仕事をして戻ってくる可能性が高くなります。基本的に、倫理的な AI は、AI モデルをトレーニングするためにデータに注釈を付けてクリーンアップする人から始まります。これらの人々がその仕事に対して満足のいく報酬を受けていない場合、偏見が広がる可能性が高くなります。AI モデルにとってより倫理的でより良い世界を構築するには、データから始めるという原点に戻る必要があります。AI ライフサイクルには 4 つのデータ処理段階が含まれており、そのすべてがトレーニング データセットにバイアスを導入する可能性があります。データの準備段階では、無意識の偏見を特定し、できるだけ多くの偏見を取り除くことができる、十分な訓練を受け、高給取りのスタッフを配置することが重要です。

おすすめ

転載: blog.csdn.net/Appen_China/article/details/131683781