NLP 基本知识
NLP问题主要是对字词、短语、句子、篇章的处理,这一切问题主要包含两个层次:结构、语义。解决这些问题离不开两个基本概念:语言模型、序列标注。
一、语言模型
语言模型是指用数学的方法描述语言规律,统计语言模型是用句子A出现的概率p(a)来刻画句子的合理性,常用的有 n-gram模型
二、词向量
离散的表示:one_hot ,词袋模型,TF-IDF
分布式表示:分布式表示,word2vec中的CBOW,skip_gram
三、序列标注
NLP许多任务可以转化为‘将输入的语言序列转化为标注序列’,例如命名实体识别,词性标注
常用方法:隐马尔可夫模型HMM,条件随机场CRF,神经网络与条件随机场结合 RNN+CRF
四、