nは中指の言語モデルのラベルの数は、文字の合計数です。と私^予測確率は、と私それは正しい予測の確率です。ラベル番号3場合は、各サンプルは1つのラベルだけで、予測結果は、適切なカテゴリ1です、と1=1、と2=0、と3=0与えるために式L O 、S 、S=- L O Gと1^。私たちは、クロスエントロピー損失関数のみ正しい予測の確率で懸念されて見ることができます。
ベースラインモデルでは、すべてのカテゴリーに対して常に同じ確率を予測します。と私^=n個1、P E R P L E X I TのY=N-。このパープレキシティで、カテゴリの数です。 明らかに、有効なモデルのいずれかの混乱は、カテゴリの数よりも小さくなければなりません。言語モデルでは、混乱は辞書サイズよりも小さくなければなりませんvocab_size。