テキストの異常検出

オリジナル

単純な word2vec 平均は、文の意味的類似性の計算において平凡な効果しかありません (I love you と you love me の文の意味が異なることは容易に理解できますが、直接平均の最終結果は同じです。このタイプの戦略商品の注文情報は無視します(ただし、注文されていない商品の場合は大きな問題にはなりません...)

sif では上記の問題は解決されません。(ここでw2の問題について簡単に説明します)

ここでのシフの考え方は、

文内の単語ベクトルの加重平均を計算し、文ベクトル行列 (単語ベクトルで構成される) の最初の主ベクトルへのそれぞれの射影からこれらの単語ベクトルを減算します。

1. 加重平均法は次のとおりです。

ここで、 a はユーザーが自分で設定できるハイパーパラメータです。

2、

おすすめ

転載: blog.csdn.net/u013250861/article/details/133102313