マルチクラス分類のための敵対マルチバイナリーニューラルネットワーク

情報紙:

アウトライン

分類器は、各サンプルに前記ラベルつ以上のカテゴリラベルを割り当てます。あなたが主題分類する場合は例えば、マイクロブログのために、カテゴリラベルは、エンターテイメント、スポーツ、軍事、教育を持っているようにも。

主にニューラルネットワークを使用して、既存のテキストの分類方法。最後の層では、一般的に、各カテゴリーに属する確率ソフトマックスのテキストを使用して計算されます。しかし、この方法は、各カテゴリの元の入力機能が等しい寄与カテゴリ間の相関を無視して、カテゴリごとに別々に考えられています。

マルチラベル分類のため1-VS-残り(OVR)モードを使用していくつかの方法。すなわち、クラス毎に、サンプルがこのクラスに属するクラスに属するか否かを判定するためのバイナリ分類器があります。このように、複数のタスク間で複数の分類の関連付けをキャプチャするための共同の試みを通じて学習、マルチタスク学習に触発されました。マルチタスクは、そのモデルが優れていること、正則のモデルポテンシャルながら、機能の異なる側面を学びます。

この論文は、すべて、多クラス分類OVR、OVRの方法が、別個のタスクとして各バイナリ分類器によって行われたバイナリ分類器と元のマルチクラス分類形マルチタスク学習OVR。著者は、入力フィーチャクラスの独立した(クラスに依存しない)共有情報とカテゴリ固有の(クラス固有)の両方が含まれていますと考えています。分類のための有用な情報が含まれている分類の元ほとんど使用、彼らは無関係な情報カテゴリのいくつかのことを取り除くために、あるこれら二つの部分の特性を、分離したいです。

特性のモデルを分割するようにするために、紙も戦闘訓練戦略を提案しています。具体的には、各カテゴリOVRバイナリ分類器は、特定の特徴エンコーダ、プラス入力フィーチャクラスの独立した分類子を生成するためのエンコーダの共有機能を有しています。特性カテゴリから決定される目標弁別器は、ターゲット生成器は、クラスが無関係とスプーフィング機能弁別器で生成されます。このように、複数の他の分類タスクより適用されます。

方法

以下では、図3のメイン構造モデルです。

問題定義

各ドキュメント\(DでD_I \ \)文一連の\(<S_1、S_2、\ドット> \) シリーズワード文章から構成されそれぞれが、。文書の集合所与\(D \) ドキュメント\(K \)分類タスクは、タグをマッピングする文書を研究することである(D:\ RIGHTARROW \ {L_1、\ DOTS、L_K \} \ F)\スプリットモードOVR紙ベースのマルチ分類タスク\(K \)番目のバイナリタスク、バイナリ分類器として表さそれぞれ:\(D \ RIGHTARROW \ {L_K、-l_k \} \ F_K) 前記\ (-l_k \)文書が最初に属していないことを示します\(K \)クラス。

モデル

バイナリ分類

上記のように、バイナリエンコーダOVR各タスクの用紙がエンコーダに設けられて、エンコーダが注目層です。これら2つの部分は、ネットワークレベルの注目HAN(ヤン、Zichaoらから直接得られる 。、2016)。バイナリ接続層によって完全に再入力する各層の事務局担当の注目の出力。具体的には、ドキュメントの\(D \)とカテゴリ\(K \) 紙は、クラス固有の機能HAN用いて算出される\(a_k \)バイナリ分類を:

\ [\ {整列} e_k&= \テキスト{エンコーダ} _k(D; \ theta_ {e_k})開始\\ a_k&= \テキスト{事務局担当} _k(e_k; \ theta_ {a_k})\\ P _を{\テキスト{ビン} _k}(K | D)&= \ FRAC {\ EXP(w_k ^ Tのa_k)} {\ EXP(w_k ^ T a_k + \ EXP({W ^ { '}} _ K ^ Tのa_k)} \端{整列} \]

ここで、\(\ {テキスト} _Kエンコーダ\)\(\テキスト{事務局担当} _k \) 最初に\(K \)エンコーダと注目層のパラメータは、\(\ theta_ {e_k} \ ) そして\(\ theta_ a_k} {\)その文書\(D \)ベクトルに変換される\(a_k \) \(w_k ^ T \)\({^ {「} wの K ^ T \ _})は全体の接続層の重みベクトルの重みです。損失バイナリ分類関数は、負の対数尤度のように表すことができます。

\ [L _ {\テキスト{ビン} _k} = - (Y_K \ログP _ {\テキスト{ビン} _k}(K)+(1-Y_K)\ログP _ {\テキスト{ビン} _k}( - K) )\]

標準のマルチクラス分類

さらに、\(K \)基が前記\(A_1、A_2、\ cdots 、a_K \) 標準のマルチクラス分類のためにも使用されます。

\ [P _ {\テキスト{MUL}}(K | D)= \ FRAC {\ EXP(u_k ^ Tのa_k)} {\ sum_ {i = 1} ^ K \ EXP(u_i ^ Tのa_iを)} \]

つまり、この時点での機能を直接使用するソフトマックス、複数の分類、損失以上のカタログであります:

\ [L _ {\テキスト{MUL}} = - \ sum_ {k = 1} ^ K Y \ログP _ {\テキスト{MUL}}(K)\]

戦闘訓練

機能やクラスの独立した機能の特定のカテゴリを区別するために、紙も戦闘訓練戦略を使用していました。図モデル\(Attn_ {副}は\)発生器である、\(Dは\)弁別器です。\(Attn_ {副} \)\(Kは\)入力としてエンコーダを出力して、対応する生成\(K \)インスタンスに対して数。目標は、対立のインスタンスからエンコーダを生成する識別器生成を決定することです。分類は、発電機欺くことの記事\(Attn_ {副}を\)不要な形体のカテゴリを抽出することを学ぶことができます。次のように戦闘訓練過程を表現することができます。

\ [\ {整列} A_ {副}(k)を開始&= \テキスト{事務局担当} _ {副}(e_k; \ theta_ {副})\\ P_D(J | K)&= \ FRAC {\ EXP( (v_j A_ {副}(K)))} {\ sum_ {i = 1} ^ K \ EXP((V_I A_ {副}(K)))} \\ L_ {副}&= \分_ {\ theta_ {副}(\ラムダ\最大_ {\ theta_D}(\ sum_ {k = 1} ^ K \ sum_ {J = 1} ^ K z_k ^ J \ログ(P_D(J | K))))\端{整列} \]

前記\(A_ {副}(kは )\) 最初のための発電機である\(K \)の例に対して生成カテゴリ、\(Z_K ^ J \で\ {0,1 \} \)は、サンプルかどうかを示します最初の\(K \)クラス、\(V_I \)は、パラメータ識別器である\(\ラムダ\)超基準です。\(P_D(J | K)は、 \) 弁別分類処理であり、\(L_ {ADVは} \)損失の学習に反しています。

この場合、モデルは、である、エキスと別のクラスの独立した機能カテゴリ固有の機能を知ることができる(\テキスト{事務局担当} _k \ \) 特定出力することができる(K \)\クラス情報、\(\ {テキスト} _ {事務局担当ADV} \)ケースの一部に特徴クラスの独立した出力特性は、クラス独立に入れて除去しました。避けクラス固有の機能への順序は、クラスの独立した機能を含んで一方、紙は、2つの直交制約を備えています。予測期間では、機能の唯一の特定のカテゴリを分類するために使用されます。

損失関数

損失型直交制限クラスの独立した特徴および特定の特徴は、以下のように表すことができます。

\ [L_ {差分} = \ sum_ {k = 1} ^ K || a_k ^ TのA_ {副}(K)|| _F ^ 2 \]

最終モデルは、4つの損失の機能喪失の線形結合です。

\ [L = \アルファ\ sum_ {K = 1} ^ K bin_k L_ {+} \ {L_ラバベータ} + \端{副} + L_ \デルタ差分L_ {} \]

これは、\(\アルファ、\ベータ、\ガンマ、\デルタ\)は、ハイパーパラメータです。

実験

次のように本稿では、二つの大規模なテキスト分類データセット、事例データセットを使用します。

結果は以下の通り:

おすすめ

転載: www.cnblogs.com/weilonghu/p/12591101.html