잠재 의미 분석(LSA)(latent semantic analysis)

이 기사는 17장 Li Hang의 통계적 학습 방법의 잠재 의미 분석 ~ 을 참조합니다.

텍스트 정보 처리의 핵심 이슈는 텍스트 내용을 디지털로 표현하고 텍스트 간의 의미적 유사도를 계산하는 것입니다.

전통적인 방법은 단어 벡터를 사용하여 텍스트의 의미적 내용을 나타내고 단어 벡터 공간(내적 또는 정규화된 내적)의 측정을 사용하여 텍스트 간의 의미적 유사성을 나타냅니다.

잠재적인 의미론적 분석은 텍스트의 의미론적 내용을 표현하기 위해 주제 벡터를 사용하고 텍스트 간의 의미론적 유사성을 나타내기 위해 주제 벡터 공간(내적 또는 정규화된 내적)의 척도를 사용하여 잠재적인 주제를 발견하려고 시도합니다.

단어 벡터 공간

설명하다:

텍스트가 주어지면 텍스트의 '의미'를 나타내는 벡터를 사용하고 벡터의 각 차원은 단어에 해당하며 해당 값은 텍스트에서 단어의 빈도 또는 가중치입니다(가중치는 일반적으로 tfidf로 표시됨). . 기본 가정은 텍스트의 모든 단어가 텍스트의 의미론적 내용을 나타낸다는 것입니다. 텍스트 집합의 각 텍스트는 벡터로 표현될 수 있으며 내적 또는 정규화된 내적과 같은 벡터 공간의 척도는 텍스트 간의 '의미적 유사성'을 나타냅니다.

수학적 정의는 모든 텍스트에 나타나는 n개의 텍스트 집합과 m개의 단어 집합이  주어졌을 때 아래에 나와 있습니다 . 텍스트에 나타나는 단어의 데이터는 로 표시되는 단어-텍스트 행렬로 표시되며  첫 번째 열은 텍스트에 해당하는 단어 벡터를 나타내고  두 번째 열은 텍스트에 해당하는  단어 벡터를 나타냅니다 .

의 행렬 입니다  텍스트에서 단어 의 빈도 또는 가중치를 나타냅니다 .

가중치는 일반적으로 빈도 역 텍스트 빈도(TF-IDF)로 표현됩니다. TF-IDF의 정의는 검색하면 이해하기 쉽습니다.

단점:

단어에는 polysemy와 polysemy가 있으므로 단어 벡터를 기반으로 한 유사도 계산이 정확하지 않습니다.

단어의 다의어: 예를 들어 '사과'라는 단어는 텍스트에 따라 의미가 다릅니다. 식품 텍스트에서는 '사과'를 의미하고 기술 텍스트에서는 '애플 회사'를 의미합니다. 그러나 단어 벡터 공간에서는 동일한 의미로 간주됩니다.

모호하지 않은 폴리워드: 예를 들어 '비행기'라는 단어와 '항공기'라는 단어는 어떤 텍스트에 있든 동일한 의미를 갖지만 단어 벡터 공간에서는 두 개의 독립적인 단어로 간주됩니다.

주제 벡터 공간

두 텍스트의 의미적 유사성은 주제 유사성에 반영될 수 있습니다. 소위 주제란 텍스트에서 논의되는 내용이나 주제를 말하며 일반적으로 하나의 텍스트에는 여러 개의 주제가 포함되며 두 텍스트의 주제가 유사하면 두 텍스트의 의미도 유사합니다. 예를 들어 'airplane'과 'aircraft'라는 단어는 같은 주제를 나타낼 수 있고 'apple'은 다른 주제를 나타낼 수 있습니다.

주제 벡터 공간: 텍스트가 주어지면 주제 공간에서 텍스트는 벡터로 표현되며 벡터의 각 구성 요소는 주제에 해당하며 그 값은 텍스트에 나타나는 주제의 가중치입니다. 주제의 수는 종종 단어의 수보다 훨씬 적습니다.

수학적 정의는 다음과 같습니다.

1. 단어-텍스트 행렬: 단어 벡터 공간에서의 단어-텍스트 행렬과 동일하다.

모든 텍스트에 나타나는   n개의 텍스트 모음과 m개의 단어 모음이 주어집니다 . 단어가 텍스트에 나타나는 데이터는 로 표시되는 단어-텍스트 행렬로 표시되며  첫 번째 열은  텍스트에 해당하는 벡터를 나타내고 두 번째 열은 텍스트에 해당하는 벡터를 나타냅니다. 

의 행렬 입니다  텍스트에서 단어 의 빈도 또는 가중치를 나타냅니다 .

2. 단어 주제 매트릭스:

모든 텍스트가 총 k개의 토픽을 포함하고 있다고 가정하고 각 토픽은 모든 텍스트에 나타나는 단어 집합 W에 정의된 m차원 벡터로 표현된다고 가정하면 이것이 토픽 벡터입니다.모든 토픽 벡터는 다음과 같이 표현될 수 있습니다.

주제에서 단어 의 가중치는 어디에 있습니까 ?

단어-주제 매트릭스 , 즉:

 3. 토픽-텍스트 매트릭스

텍스트 컬렉션 의 주제 공간에 있는 벡터가 k차원 벡터라고 가정하면 다음 과 같이 표현됩니다.

텍스트에서 주제 의 가중치는 어디에 있습니까 ?

 토픽-텍스트 매트릭스는 다음과 같습니다.

 4. 단어-텍스트 행렬, 단어-대화-주제 행렬, 주제-텍스트 행렬의 관계

단어 벡터 공간의 모든 텍스트 벡터는 계수의 선형 조합, 즉 모든 주제 벡터의 가중 합 으로 k 주제 벡터에 의해 근사화될 수 있습니다 .

(계수를 곱한 첫 번째 토픽 벡터 + 계수를 곱한 두 번째 토픽 벡터 +... + 계수를 곱한 k번째 토픽 벡터) 

행렬로 표현하면 다음과 같습니다.

행렬은  \boldsymbol{X} 단어-텍스트 행렬(단어 공간에서 텍스트 표현)입니다.

행렬   \boldsymbol{T}은 단어-주제 행렬(주제 벡터 공간)입니다.

행렬은 \boldsymbol{Y} 주제-텍스트 행렬(주제 공간의 텍스트 표현)입니다. 

 행렬 T 및 행렬 Y 계산 

사용된 계산 방법은 특이값 분해이며, 특이값 분해에 대해서는 SVD(Singular Value Decomposition)를 참조하십시오 .

구체적으로 잘린 특이값 분해법을 사용하며 토픽 개수 k <= 텍스트 개수 n <= 단어 개수 m이다.

\boldsymbol{X_{m\times n}} \approx \boldsymbol{U}_{m\times k}\boldsymbol{D}_{k\times k}\boldsymbol{V}_{n\times k}^ {티}

그 중 토픽 벡터 공간 행렬은   \boldsymbol{T} 이고  \boldsymbol{U}_{m\times k} , 토픽 공간에 있는 텍스트의 표현 행렬은  \boldsymbol{Y} 입니다  \boldsymbol{D}_{k\times k}\boldsymbol{V}_{n\times k}^{T} .

오늘의 LSA는 여기까지입니다. 댓글란에 메시지를 남겨주신 모든 분들을 환영합니다~

Supongo que te gusta

Origin blog.csdn.net/qq_32103261/article/details/120601196
Recomendado
Clasificación