自然语言处理学习笔记

1、主要处理问题

文本分析、机器翻译、关键词提取、语义消歧、主题模型、问题问答、对话机器人

2、文本表示方法

1)词袋模型(Bag of words,Bow):不考虑词语顺序,只基于词频的统计方法。
2)向量空间模型:每个词对应空间中一个单位向量,文本表示为词语的归一化加权总和。
3)TF-IDF:词频表示方法
TF(Term Frequency):词频,在一篇文档d中词语t出现的次数个归一化,越大代表相对出现次数越多。
t f t , d = f t , d / ∑ t ′ ∈ d f t ′ , d tf_{t,d}=f_{t,d}/\sum_{t^{'}\in{d}}f_{t^{'},d} tft,d=ft,d/tdft,d
IDF( Inverse Document Frequency):逆向文档词频,一个文本中词语t在多个文档中出现,越大代表越不重要。
i d f t = l o g ( N / n t ) idf_{t}=log(N/n_t) idft=log(N/nt)
t f − i d f t , d = t f t , d ∗ i d f t tf-idf_{t,d} = tf_{t,d}*idf_{t} tfidft,d=tft,didft

3、常见的词向量模型

CBOW
Skip-gram
Glove

4、如何高效计算归一化常数

1)层次化softmax
2)负例采样

猜你喜欢

转载自blog.csdn.net/nalw2012/article/details/87992641