部分母集団分解によるある程度の分布の公平性の証明

部分母集団分解によるある程度の分布の公平性の証明

サブグループ分解を使用して分布の公平性を検証する

背景: 特に健康保険、教育、採用決定などのリスクの高い領域では、さまざまな公平性指標に基づいて機械学習モデルの公平性を理解し、改善するために多大な努力が払われてきました。

問題と欠陥: エンド ツー エンドの機械学習モデルのパフォーマンスには、検証可能な公平性が欠けています。

方法とモデル:

与えられたデータ分布で、トレーニングされた ML モデルの検証の公平性は、トレーニング データ分布の制限された分布距離内の公平性制約の分布に関するモデル パフォーマンス損失の境界に基づく。

貢献する:

  1. 一般的な公平性検証フレームワークが提案され、センシティブ オフセット一般的なオフセットを使用してインスタンス化された検証が行われます。
  2. ソース データの分布を分析可能なサブグループ分布に分解し、凸性を証明して部分問題を解決し、モデルの最適化問題を解決します。
  3. 実験により、モデルの検証可能性は、センシティブなオフセットの場合は厳密であり、一般的なオフセットの場合は厳密であることが証明されています。並外れたの。
  4. このフレームワークは、追加の機能を柔軟に統合できます不偏制約となり、結果はより厳しくなります。
  5. 提案された検証可能な公平性の境界は、既存のものと比較されます適応分布ロバスト境界比較すると、前者の方が厳しいことがわかります。

1 はじめに

前作の欠点

  1. これまでの研究では、主に正則化トレーニング、もつれの解消、双対性、低次行列分解、分布の整列、および ML の公平性を向上させるその他の方法に焦点を当てていました。

  2. 検証可能な公平性の特徴付けに関するいくつかの作業が ML で行われましたが、問題があります。ランダムに与えられたデータ分布でエンドツーエンドのモデルをトレーニングすると、このモデルは結果を予測する際の検証可能な公平性に欠けます。

  3. 公平性に関する既存の文献が焦点を当てている ML モデルは、(非) バランスの取れたデータ分布でモデルをトレーニングし、測定可能なターゲット ドメインで既存の公平性評価方法を通じてモデルのパフォーマンスを評価することです。評価方法の選択のみに依存し、方法の有効性は考慮されていません。

検証可能な公平性: 公平性が制約されたテスト分布 Q で、Q がトレーニング分布 P から有界距離内にある場合、検証可能な公平性をモデルの予測損失の最悪の場合の上限として定義します。

基本料金条件テスト分布 Q の公平性制約として。

機密シフト 機密シフト: 機密属性とラベルのカスケード分布は変更される可能性があります。

一般的なシフト: 非機密属性の条件付き分布を含むすべてを変更できます。

Group Fairness : センシティブな特徴とモデル予測の間の独立性を測定します。Separation [separation] は、ターゲット ラベルが与えられた場合、センシティブな特徴がモデル予測から統計的に独立していることを示します。十分性 [十分性] は、特定のモデル予測、機密性の高い特徴がターゲット ラベルから統計的に独立していることを示します。つまり、グループの公平性では、機密属性がターゲット ラベルやモデル予測から独立している必要があります。

個々の公平性: 同様の入力フィーチャは、同様の出力結果を生成します。

この論文は以前の研究とは異なります:

  1. 検証の公平性では、表現学習のレベルではなく、エンドツーエンドの ML モデルのパフォーマンスが考慮されます。
  2. 公平性は、公平性制約の分布に基づいて定義および検証されます。
  3. 特定のランダム データ分布でトレーニングされた任意のブラック ボックス モデルについて、検証可能な公平性を計算できます。

質問 1: ベンチマーク金利の条件付き制約は、公平性制約の分布をどのようにエンコードしますか?

2. 公正制約分布に基づく検証可能な公平性

定義 1 ベンチマーク金利: X*Y でサポートされる分布PPが与えられた場合P、機密属性値ssラベルyyに対するsyの基本レート:SSSは機密属性、[S] は機密属性が取り得る値のセット、sssは機密属性の機密属性値です。YYYはモデルの予測結果、yyyはサンプル ラベル、XXX はサンプル機能です。テストサンプルのベンチマーク金利は、[センシティブな属性特性X s X_sバツss、予測結果はyyyの確率]:

画像-20221114181417296

定義 2. 公正なベンチマーク金利分布: ベンチマーク金利によって生成された分布の場合に限り、任意の 2 つのサンプルについてiijjj、両方とも同じ予測ラベルyyy であり、両方とも機密属性SSSの特定の属性値について、対応するベンチマーク金利は等しく、この分布は公正なベンチマーク金利分布と呼ばれます。

画像-20221114181507813

Demographic Parity : グループ公平性評価指数

画像-20221117141519913

2.1 検証可能な公平性

データ生成モデル: X o X_oバツoセンシティブでない属性機能を表します。X s X_sバツsセンシティブな属性特性、YYを表しますY はサンプル ラベルを表します。

画像-20221115225158524

一般的なオフセットによる検証の公平性: P \mathcal PPはトレーニング セットの分布、ρ \rhoρはテスト セットの分布Q \mathcal QQP \mathcal PP間の分布距離の境界。分布距離ρ \rhoで生成されたすべてのトレーニング セット分布についてρの範囲内のテスト セット分布公平性の証明値は次のとおりです。すべてのテスト セット分布における損失値の上限の最大値

画像-20221114181040565

実際のシナリオでは、モデル トレーニング セットは常にデータ管理とデータ収集によって制限されるため、トレーニング済みモデルには常に固有の不公平性が存在します。構築するテスト セットが理想的に公正であると仮定すると、モデルがテスト時にトレーニング中に生成されたバイアスをエンコードしないことを期待します。したがって、公正な制約分布でのモデルのパフォーマンスは、固有の不公平性を示します。

センシティブ オフセットの検証可能な公平性: トレーニング中のモデル固有の不公平を回避するために、一般的なオフセットの検証の公平性の下に新しい制約が追加されます。P s , y P_{s,y}PはいそしてQ sからy Q_{s,y}QはいそしてPPですPQQQのサブグループsssyyy分割]。

画像-20221114181115540

テスト セットの分布QQを制約するにはQは機密属性X s X_sバツs、したがって、追加の制約条件がセンシティブ オフセットに追加されます。

画像-20221117150943254

損失損失各グループおよび各カテゴリの損失:

画像-20221117152013594

上記の損失は、 ε-DPε-EOに変換できます

画像-20221117152440782

グループ パリティ (人口統計パリティ、DP): 2 つの異なるグループを陽性クラスとして予測する確率の差。

均等化オッズ: グループ間の偽陽性率の差、またはグループ間の真陽性率の差. 差が小さいほど、モデルはより公平です.

3. 公平性認証の枠組み

3.1 サブグループ分解 [コア]

ヘリンジャー距離: 2 つの分布間の距離を測定します。値の範囲は [0, 1] で、大きいほど関連性が高くなります

画像-20221117153124935

全体最適化問題

画像-20221118105031278

画像-20221118105043370

画像-20221117153902026

画像-20221118104406155

サブグループ最適化問題:

画像-20221118104514617

画像-20221118111433319

3.2 センシティブオフセットによる検証可能な公平性

画像-20221118105832265

画像-20221118111316377

画像-20221118111326577

画像-20221118111759859

画像-20221118111902585

3.3 一般的なオフセットによる検証可能な公平性

画像-20221118112131894

画像-20221118112152904

サブグループ分解後の損失計算:

画像-20221118113056217

画像-20221118140325819

画像-20221118140340288

画像-20221118140414378

付録

スカラー: スカラーは、線形代数で研究される他のほとんどのオブジェクト (通常は数値の配列) とは異なり、単一の数値 (整数または実数) です。スカラーは通常、イタリック体の小文字で表されます。例: x \mathit xx、スカラーは Python で定義されているものと同等です

x = 1

ベクトル (ベクトル): ベクトルは順序付けられた数のセットを表します. 個々の数は順序のインデックスから見つけることができます. ベクトルは通常, 太字の小文字で表されます. たとえば: x \bf xx、ベクトルの各要素はスカラー、ベクトルの i 番目の要素は $x_i$ で表され、ベクトルは Python の 1 次元配列と同等です

import numpy as np
#行向量
a = np.array([1,2,3,4])

行列 (行列): 行列は 2 次元配列であり、その各要素は 2 つのインデックス ( A i , j A_{i,j} j)、行列は通常、太字のイタリック体の大文字で表されます。例: $ \boldsymbol X$. マトリックスは 2 次元のデータ テーブルと考えることができます。マトリックスの各行はオブジェクトを表し、各列はフィーチャを表します。Python では次のように定義されています。

import numpy as np
#矩阵
a = np.array([[1,2,3],[4,5,6],[7,8,9]])

テンソル: 2 次元以上の配列一般的に言えば、配列内の要素は、テンソルと呼ばれる数次元座標の規則的なグリッドに分散されます。テンソルが 3 次元配列の場合、要素の位置を決定するために 3 つのインデックスが必要です ( A i , j , k A_{i,j,k}i j k)、テンソルは通常、太字の大文字で表されます。例: X \bf Xバツ

mport numpy as np
#张量
a = np.array([[[1,2],[3,4]],[[5,6],[7,8]]])

範囲を見つけるための範囲制約

最悪の境界

r<bound が証明されている場合、各テスト サンプルの r を計算する方法

範囲内で、予測結果が最悪の場合以上でなければならないため、検証の性質があります。

検証可能なプロパティ: 予測結果で、ユーザー指定の境界予測 R に一致するサンプル数。

データ配布

ダウンロード

おすすめ

転載: blog.csdn.net/qq_45724216/article/details/129865478