自然言語処理における単語の分散表現のメリットとデメリット(モデル学習結果)

word2vecを使用すると、単語の分散表現が得られます。
感情分析など、単語の分散表現は特定のアプリケーションでよく使用され、最終的には高精度のシステムが必要ですが、分散表現のメリットとデメリットをどのように評価しますか?このシステムには複数のシナリオが含まれている可能性があり、単語の分散表現は個別に学習される可能性があるため、評価も複数のシステムを個別に評価する必要があるため、非常に時間がかかります
。実際のアプリケーションとは別に実施され、頻繁に使用される評価指標には類似性類似性の問題がある

単語の類似度評価は通常、手動で作成した単語の類似度セットを使用して評価されます。たとえば、猫と動物の類似度は 8、猫と車の類似度は 2 です。これと同様に、人為的に 0 ~ 10 のスコアが使用されます。単語間の類似度を比較 次に、人が与えたスコアとword2vecが与えたコサイン類似度を比較し、相関関係を調べます
類推問題の評価とは、「王様:女王様=男:?」などの類推質問を正解に応じて評価することです。レートは、単語の分散表現の長所と短所を測定します。

単語の類似性評価は私がよく使っている考え方で、手動で判断した結果とモデルの推測結果を比較することに基づいています。例えば、並べ替えやエンティティの認識では、モデルの学習の F1 値が次のように使用されます。モデル学習における評価指標 モデル学習結果の良否を判定するにはオンラインの実シーンでの評価システムが必要となる 手動判定結果をモデル推論結果を用いてNDCGアルゴリズムで判定した後、またはF1の値を再度計算しました。

おすすめ

転載: blog.csdn.net/dream_home8407/article/details/129733228