この記事は第 17 章 Li Hang の統計的学習法の潜在的意味分析を参照しています~
テキスト情報処理の中心的な問題は、テキスト コンテンツをデジタル的に表現し、テキスト間の意味的類似性を計算することです。
従来の方法では、単語ベクトルを使用してテキストの意味内容を表し、単語ベクトル空間 (内積または正規化された内積) の尺度を使用してテキスト間の意味的類似性を表します。
潜在的意味分析は、トピック ベクトルを使用してテキストの意味内容を表し、トピック ベクトル空間の尺度 (内積または正規化された内積) を使用してテキスト間の意味的類似性を表すことで、潜在的なトピックを発見しようとします。
単語ベクトル空間
説明:
テキストが与えられた場合、ベクトルを使用してテキストの「セマンティクス」を表現します。ベクトルの各次元は単語に対応し、その値はテキスト内の単語の頻度または重みです (重みは通常 tfidf で表されます)。 . 基本的な仮定は、テキスト内のすべての単語の出現がテキストの意味内容を表すということです。テキスト セット内の各テキストはベクトルとして表すことができ、内積や正規化された内積などのベクトル空間の尺度は、テキスト間の「意味的な類似性」を示します。
n 個のテキストのセットと、すべてのテキストに現れる m 個の単語のセットが 与えられた場合、数学的な定義を以下に示します。テキストに出現する単語のデータは、 として示される単語-テキスト行列で表されます。 最初の列は テキストに対応する単語ベクトルを表し、2 番目の列はテキストに対応する単語ベクトルを表します。
の行列です 。 テキスト内の単語の頻度または重みを示します。
重みは通常、頻度 - 逆テキスト頻度 (TF-IDF) で表されます。TF-IDFの定義については、検索した方が分かりやすいです。
短所:
単語には多義性と多義性があるため、単語ベクトルに基づく類似度の計算は不正確です。
単語の多義性: たとえば、「リンゴ」という単語は、テキストによって意味が異なります. 食品のテキストでは「リンゴ」を意味し、テクノロジーのテキストでは「アップル社」を意味します. しかし、単語ベクトル空間では同じ意味に見えます。
明確なポリワード: たとえば、「airplane」という単語と「aircraft」という単語は、どのテキストに含まれていても同じ意味ですが、単語ベクトル空間では 2 つの独立した単語と見なされます。
トピック ベクトル空間
2 つのテキストの意味上の類似性は、トピックの類似性に反映されます。いわゆるトピックとは、テキストで議論されている内容またはテーマを指します. テキストには通常、いくつかのトピックが含まれています. 2つのテキストのトピックが類似している場合、2つのテキストの意味論も類似しています. たとえば、「airplane」と「aircraft」という単語は同じトピックを表し、「apple」は異なるトピックを表すことができます。
トピック ベクトル空間: テキストが与えられると、テキストはトピック空間のベクトルで表され、ベクトルの各コンポーネントがトピックに対応し、その値がテキストに現れるトピックの重みになります。多くの場合、トピックの数は単語の数よりもはるかに少なくなります。
数学的な定義は以下のとおりです。
1. 単語テキスト マトリックス: 単語ベクトル空間の単語テキスト マトリックスと同じ。
n 個のテキストのコレクションと、すべてのテキストに現れる m 個の単語のコレクションが 与えられます。単語がテキストに表示されるデータは、 として示される単語-テキスト行列によって表されます。 最初の列は テキストに対応するベクトルを表し、2 番目の列はテキストに対応するベクトルを表します。
の行列です 。 テキスト内の単語の頻度または重みを示します。
2. 単語トピック マトリックス:
すべてのテキストに合計 k 個のトピックが含まれていると仮定し、各トピックがすべてのテキストに出現する単語集合 W で定義された m 次元のベクトルで表されていると仮定すると、これがトピック ベクトルになります。トピック ベクトルは次のように表現できます。
どこ はトピック の単語の 重みです.
単語トピック行列、つまり:
3. トピックとテキストのマトリックス
テキスト コレクションのトピック空間のベクトルが であると仮定すると、式は次のようになります。
ここで、 はテキストに対するトピックの重みです。
トピックとテキストのマトリックスは次のとおりです。
4. 単語とテキストの行列、単語と話題の行列、トピックとテキストの行列の関係
単語ベクトル空間内の任意のテキスト ベクトルは、係数の線形結合、つまり、すべてのトピック ベクトルの加重和としてk 個のトピック ベクトルで近似できます。
(係数を掛けた最初のトピック ベクトル + 係数を掛けた 2 番目のトピック ベクトル +... + 係数を掛けた k 番目のトピック ベクトル)
行列で表されるのは次のとおりです。
行列は 、単語とテキストの行列 (単語空間でのテキストの表現) です。
matrix は単語トピック行列 (トピック ベクトル空間) です。
マトリックスは 、トピックとテキストのマトリックス (トピック空間でのテキストの表現) です。
行列 T と行列 Y を計算する
計算方法は特異値分解です. 特異値分解については,特異値分解 (SVD)を参照してください.
具体的には、切捨て特異値分解が使用され、トピックの数 k <= テキストの数 n <= 単語の数 m です。
このうち、トピックベクトル空間行列 は 、トピック空間でのテキストの表現行列は です 。
今日のLSAは以上です、コメント欄にメッセージを残してください〜