倫理的および社会的問題に関するブリーフィング #4: Vincentian グラフィカル モデルのバイアス

つまり、Vinsen グラフィカル モデルのバイアスを評価するためのより良い方法が必要です。

導入

Text-to-image (TTI) 生成は現在非常に人気があり、何千もの TTI モデルが Hugging Face Hub にアップロードされています。各モダリティはさまざまなソースからのバイアスの影響を受ける可能性があるため、これらのモデルのバイアスをどのように検出するかという疑問が生じます。現在のブログ投稿では、TTI システムにおけるバイアスの原因とツール、それに対処するための潜在的な解決策について私たちの考えを共有し、私たち自身のプロジェクトとより広範なコミュニティからのプロジェクトを紹介します。

画像生成時にエンコードされた値とバイアス

バイアスと値の間には非常に密接な関係があり、特に特定のテキストから画像へのモデルのトレーニングやクエリに使用される言語や画像にバイアスや値が埋め込まれている場合、この現象は生成された画像に表示される内容に深刻な影響を与えます。 . 出力に。この関係は人工知能研究のより広範な分野でよく知られており、科学者はそれを解明するために多大な努力を払っていますが、特定の集団の価値観の進化する性質をモデルで表現しようとする複雑さは依然として残っています。このことは、この問題を明らかにし、適切に対処するために永続的な倫理的課題を引き起こします。

たとえば、トレーニング データが主に英語である場合、それらはかなり西洋化された価値観を伝える可能性があります。その結果、私たちは異なる文化や遠い文化に対する固定観念を抱くことになります。この現象は、同じキュー「北京の家」に対する ERNIE ViLG (左) と Stable Diffusion v 2.1 (右) の結果を比較すると、非常に明白になります。

09e085e57d780f4616acab623b5ecfb4.png
北京の住宅における同じプロンプトに対する ERNIE ViLG (左) と Stable Diffusion v 2.1 (右) の結果

偏見の源

近年、自然言語処理 (Abid et al., 2021) やコンピューター ビジョン (Buolamwini and Gebru, 2018) など、シングルモーダル AI システムにおけるバイアス検出に関して多くの重要な研究が行われています。機械学習モデルは人間によって構築されるため、すべての機械学習モデル (実際、すべての手法) にはバイアスがかかっています。これは、画像内の特定の視覚的特徴の過不足(例、すべての会社員がネクタイを着用している)、または文化的および地理的固定観念の存在(例、周囲の代表的な花嫁ではなく、すべての花嫁が白いガウンとベールを着ている)として現れる場合があります。赤いサリーを着た花嫁などの世界)。AI システムが社会技術的な文脈で導入され、さまざまな業界やツール (例: Firefly、Shutterstock) に広く導入されていることを考えると、特に既存の社会的偏見や不平等を増幅する傾向があります。私たちは、偏見の原因の非網羅的なリストを提供することを目指しています。

トレーニング データのバイアス:テキストから画像への LAION-5B、画像キャプション用の MS-COCO、視覚的な質問応答用の VQA v2.0 などの一部の人気のあるマルチモーダル データセットには、多数のバイアスが含まれていることが判明しています。有害な関連性 (Zhao et al 2017、Prabhu and Birhane, 2021、hirota et al, 2022)、これらのバイアスは、これらのデータセットでトレーニングされたモデルに浸透する可能性があります。たとえば、Hugging Face Stable Bias プロジェクトの暫定結果では、画像生成には多様性が欠けており、文化やアイデンティティのグループに共通する固定観念が永続していることが示されています。Dall-E 2 で生成された CEO (右) とマネージャー (左) を比較すると、両方に多様性が欠けていることがわかります。

9992e44631c74ef0148f4e098023be70.png
Dall-E の 2 世代にわたる CEO (右) とマネージャー (左)

トレーニング前データのフィルタリングにおけるバイアス:多くの場合、データセットはモデルのトレーニングに使用される前に何らかの形式でフィルタリングされ、これによりさまざまなバイアスが生じます。たとえば、Dall-E 2 の作成者は、ブログ投稿の中で、トレーニング データのフィルタリングが実際にバイアスを増幅させることを発見しました。彼らは、これは、女性をより性的な文脈で表現することに偏った既存のデータセットによるもの、または、彼らが使用するフィルタリング方法は本質的に偏っています。

推論のバイアス:安定拡散や Dall-E 2 などのテキストから画像へのモデルのトレーニングと推論をガイドするために使用される CLIP モデルには、年齢、性別、人種や民族に関連する多くの十分に文書化されたバイアスがあり、たとえば、次のように分類されます。白人中年画像男性はデフォルトとみなされます。これは、不特定または不特定の性別およびアイデンティティ グループを考慮して白人と男性を表現するなど、キューをエンコードするためにそれを使用するモデルの生成に影響を与える可能性があります。

モデルの潜在空間のバイアス:モデルの潜在空間を探索し、生成をより代表的なものにするために、さまざまな軸 (性別など) に沿って画像生成をガイドする初期作業が行われました (下の画像を参照)。ただし、さまざまなタイプの拡散モデルの潜在的な空間構造と、生成された画像の反射バイアスに影響を与える要因をよりよく理解するには、さらなる研究が必要です。

f8566c433510ef4cc9ec61ef54bd0f27.png
消防士の公正な普及世代。

ポストフィルタリングのバイアス:多くの画像生成モデルには、問題のあるコンテンツにフラグを立てるように設計された安全フィルターが組み込まれています。ただし、これらのフィルターがどの程度うまく機能し、さまざまな種類のコンテンツに対してどれだけ堅牢であるかはまだ判明していません。たとえば、安定拡散セキュリティ フィルターのレッド チーム テストでは、主に性的なコンテンツを識別し、他の種類の暴力にはフラグを立てられないことが示されました。 、グロい、または不穏なコンテンツ。

検出バイアス

上で説明した問題のほとんどは、単一の解決策で対処することはできません。実際、バイアスは複雑なトピックであり、テクノロジーだけでは有意義に対処することはできません。偏見は、それが存在するより広範な社会的、文化的、歴史的背景と密接に関係しています。したがって、AI システムのバイアスに対処することは技術的な課題であるだけでなく、学際的な注意を必要とする社会技術的な課題でもあります。ツール、レッドチームの敵対的テスト、評価などのさまざまな方法論は、TTI やその他のマルチモーダル モデルに含まれるバイアスについてモデル作成者や下流ユーザーに情報を提供できる重要な洞察を得るのに役立ちます。

これらの方法のいくつかを以下に説明します。

バイアスを調査するためのツール: Stable Bias プロジェクトの一環として、さまざまなテキストから画像へのモデルにおけるバイアスの視覚的表現を調査および比較するための一連のツールを作成しました。たとえば、[平均拡散面] ツールを使用すると、さまざまな職業やさまざまなモデルの平均表現を比較できます。以下に示すように、「管理人」、それぞれ Stable Diffusion v1.4、v2、および Dall-E 2 について示します。

25c53c6a266159222b9d74b76c081572.png
「用務員」という職業の平均的な顔。さまざまなテキストから画像へのモデルの出力に基づいて計算されます。

顔クラスタリング ツールやカラフルネス 職業エクスプローラー ツールなどの他のツールを使用すると、ユーザーはラベルやアイデンティティ特性を指定せずにデータ内のパターンを探索し、類似点やステレオタイプを特定できます。実際、生成された個人的なイメージは現実の人間ではなく、人工的に作成されたものであるため、現実の人間であるかのように扱ってはいけないことを覚えておくことが重要です。コンテキストとユースケースに応じて、これらのツールはストーリーテリングと監査に使用できます。

レッド チーム テスト:「レッド チーム テスト」には、結果を促して分析することによって、AI モデルの潜在的な脆弱性、バイアス、弱点をストレス テストすることが含まれます。これは言語モデルを評価するために実際に使用されてきましたが(私たちが参加した DEFCON での近日開催される Generative AI Red Teaming イベントを含む)、現時点では AI モデルの体系的なレッドチーム敵対的テストのための確立された方法はありません。 。実際、AI モデルには非常に多くの潜在的な障害モードとバイアスが存在するため、それらをすべて予測することは困難であり、生成モデルの確率的性質により、障害ケースの再現が困難になります。レッドチームの敵対的テストは、モデルの制限に対する実用的な洞察を提供し、ガードレールを追加したり、モデルの制限を文書化するために使用できます。現在、レッド チームのベンチマークやリーダーボードは存在せず、オープンソースのレッド チーム リソースに対するさらなる取り組みの必要性が浮き彫りになっています。Anthropic のレッド チーム敵対的テスト データセットは、唯一のオープンソース レッド チーム敵対的テスト プロンプトですが、英語の自然言語テキストに限定されています。

バイアスの評価と文書化: Hugging Face では、モデル カードやその他の形式の文書 (データシート、README など) を強く支持しています。Text-to-Image (およびその他のマルチモーダル) モデルの場合、探索ツールやレッド チームの敵対的テストなどの上記の方法を使用した探索の結果を、モデルのチェックポイントや重みとともに共有できます。問題の 1 つは、現在、マルチモーダル モデル (特にテキストから画像への生成システム) のバイアスを測定するための標準的なベンチマークやデータセットがないことです。しかし、コミュニティがこの方向でさらに多くの作業を行うにつれて、さまざまなバイアス メトリクスを並行して報告できるようになります。モデルのドキュメントに記載されています。

価値観と偏見

上記のすべての方法は、画像生成モデルに埋め込まれたバイアスの検出と理解の一部です。しかし、それらに積極的に対処するにはどうすればよいでしょうか?

1 つの方法は、ソーシャルにしたいものを表す新しいモデルを開発することです。これは、データのパターンを模倣するだけでなく、より公平で偏りのない見解を積極的に促進する AI システムを作成することを意味します。ただし、このアプローチでは重要な疑問が生じます。誰の値をこれらのモデルにプログラムするのかということです。価値観は文化、社会、個人によって異なるため、AI モデルで「理想的な」社会がどうあるべきかを定義することは複雑な作業になります。確かに問題は複雑かつ多面的です。AI モデルで既存の社会的バイアスを再現することを回避すると、「理想的な」社会的表現を定義するという課題に直面することになります。社会は静的な存在ではなく、動的で常に変化する構造物です。では、AI モデルは時間の経過とともに生じる社会規範や価値観の変化に適応する必要があるのでしょうか? もしそうなら、これらの変化が社会のすべてのグループ、特に見落とされがちなグループを真に反映していることをどのように確認すればよいでしょうか?

さらに、前回のブリーフィングで述べたように、機械学習システムを開発する唯一の方法はなく、開発および展開プロセスのどの段階でも、最初に誰が含まれるか、タスクを定義するかなどのバイアスに対処する機会が提供される可能性があります。データセットのキュレーション、モデルのトレーニングなど。これは、マルチモーダル モデルと、それが最終的に社会に展開または生産される方法にも当てはまります。マルチモーダル モデルにおけるバイアスの影響は、その下流での使用に依存するためです。たとえば、人間とコンピューターの対話環境 (RunwayML によって作成されたものなど) でモデルがグラフィック デザインに使用されている場合、ユーザーには、プロンプトや生成オプションを変更するなど、バイアスを検出して修正する機会が複数あります。ただし、モデルが法医学者が潜在的な容疑者の警察スケッチを作成するのに役立つツールとして使用される場合(下の画像を参照)、一か八かの状況で固定観念や人種的偏見を強化する可能性があるため、リスクはさらに高くなります。

6b473520ae4319d6de458f4f1fdedde6.png
Dall-E 2を使用して開発されたForensic AI Sketchアーティストツール。

その他のアップデート

私たちはまた、次のような倫理と社会の他の側面にも取り組み続けます。

  • コンテンツのモデレーション:

    • コンテンツ ポリシーを大幅に更新しました。前回の更新からほぼ 1 年が経ち、それ以来、Hugging Face コミュニティは大幅に成長したため、そろそろ潮時だと考えました。このアップデートでは、同意がHugging Face の核となる価値観の 1 つであることを強調します。私たちの思考プロセスの詳細については、発表ブログをご覧ください

  • AI 責任ポリシー:

    • 私たちは、AI 責任ポリシーに関する NTIA のコメント要請に対して回答を提出し、その中で文書化と透明性メカニズムの重要性、およびオープンなコラボレーションを活用して外部利害関係者へのアクセスを促進する必要性を強調しました。私たちの回答の概要と完全なドキュメントへのリンクは、ブログ投稿にあります。

エピローグ

上記の議論から、テキストから画像へのモデルなどのマルチモーダル モデルにおけるバイアスと値の検出とそれに対抗することはまだ未解決の問題であることがわかります。上記の作業に加えて、私たちはこれらの問題についてコミュニティと幅広く協力しています。最近、FAccT カンファレンスでこのトピックに関する CRAFT セッションを共同主催し、このトピックに関するデータおよびモデル中心の研究を継続的に実施しています。私たちは、テキストから画像へのモデルに埋め込まれた価値とそれが表すものをさらに深く掘り下げる方向性を探求することに特に興奮しています (乞うご期待!)。


英文原文: https://hf.co/blog/ethics-soc-4

著者: サーシャ・ルッチョーニ、ジャーダ・ピスティッリ、ナズニーン・ラジャニ、エリザベス・アレンドルフ、アイリーン・ソライマン、ネイサン・ランバート、マーガレット・ミッチェル

翻訳者: イノベーション64

構成・レビュー:中東路(安東)

おすすめ

転載: blog.csdn.net/HuggingFace/article/details/131606928