詳細なワンホットエンコーディング

ブロガーのオリジナルの記事は、ソースを明記してください

https://www.cnblogs.com/shuaishuaidefeizhu/p/11269257.html

 

まず、ワンホットエンコーディングは何ですか?

また、効率的な符号化として知られているワンホットエンコーディングは、主にNビットのステータスレジスタに使用されるN個の状態符号化され、それぞれ独立して、彼がステータスレジスタビットの、任意の時間に1つだけ有効。

ワンホットエンコーディングは、カテゴリ変数としてバイナリーベクター表現。これは、分類値を整数値にマッピングされている必要があり。次に、整数値の各々がバイナリベクトルとして表され、ゼロに設定される整数インデックスに加えて、それは、1としてマークされています。

詳細に二つ、ワンホット符号化プロセス

たとえば、私たちは「こんにちは、世界は」ワンホットエンコーディングは、どのようにそれを行うにしてしたいですか?

1.決定するには、世界--hello符号化対象を

2.決定R LのD、O W oをカテゴリ変数スペース-HでのE L Lを 27個のカテゴリ(小文字+領域26)。

3.上記の問題は、同等である各サンプル27は、請求項11個のサンプルがある、に変換するバイナリーベクター、発現しました

配列が異なるに配置され、前記前提条件が、異なるバイナリーベクターに対応し、そこである(例えば、空間Iと最初の行の最初の放電カラムと同様に、ワンホット符号化結果は確かに異なります)

だから我々は、機能の順序を調整するために、事前に合意しています:

図1に示すように、機能の27種類の第1の符号化された整数: - 0、B - 1、C - 2、......、Z - 25、スペース--26

特性の2,27種類の配置を前後から符号化された整数の大きさに応じて

次のように得られたワンホットは、符号化されました。

 

別の例:私たちは[「中国」、「アメリカ」、「日本」]にしたいが、ワンホットエンコーディングしました

どのようにそれを行うには?

1.決定するには、[「中国」、「アメリカ」、「日本」、「アメリカ」] -エンコードされたオブジェクトを

2.決定カテゴリ変数-中国、アメリカ、日本、三つのカテゴリーの合計を、

3.上記の問題は、同等である各サンプルは、3である、三つのサンプルがあり、に変換するバイナリーベクター発現しました

 

私たちは、最初に行うの整数エンコーディング機能:中国--0、米国- 1、--2日本を、そして配列を昇順特色にします

次のようにワンホットコーディングされ与えるために:

[ "中国"、 "アメリカ"、 "日本"、 "アメリカ"] ---> [[1,0,0]、[0,1,0]、[0,0,1]、[0,1 、0]]

 

第三に、なぜあなたはワンホットエンコーディングを必要としますか?

1つのホットエンコーディングは、アルゴリズムを変換カテゴリ変数の形式は、機械学習プロセスを使用して簡単です。

我々の分類結果が得られながら上記分類は、Hello Worldの問題(分類27)、各サンプルは一のカテゴリ(すなわち、値特性に対応する、残り0の値)に相当以上に相当します損失関数の間(例えば、クロスエントロピー損失)や計算の精度は、非常に便利になってきたようにカテゴリは、しばしば属する確率である場合

 

四、ワンホットエンコーディング欠陥

ワンホットコーディング要件は、各カテゴリの独立している、おそらく分散respresentation(分散)を使用することがより適している場合など、連続型との間の何らかの関係があります。

おすすめ

転載: www.cnblogs.com/shuaishuaidefeizhu/p/11269257.html