NLP笔记

NLP笔记

问答系统：三个重要模块：提问处理模块（查询关键词生成、答案类型确定、句法和语义分析）、检索模块（根据查询关键词做信息检索）、答案抽取模块（从检索出的句子或段落里抽取出和提问一致的实体，再根据概率最大对候选答案排序）。

分词、命名实体识别和词性标注这三项技术如果达不到很高的水平，是难以建立起高性能的自然语言处理系统。

中文自动分词最难的两个问题：1）歧义消除；2）未登陆词识别。

分词方法：

1）基于n元语法模型的方法（计算概率）；优势在于词表里已有的词的分词效果。

2）基于字构词的方法；优势在于未登陆词的识别。（每个字在词语中都有一个构词位置：词首、词中、词尾、单独构词。根据一个字属于不同的构词位置，我们设计出来一系列特征）。

工具：jieba中文分词（结合了上述2种方法进行分词）

（如果结合了基于词表和由字构词并且充分利用统计学习的方法，这样的分词工具才是最好的）

语言模型表达的实际就是已知前n-1个词的前提下，预测第n个词的概率。

HMM: 不确定中间状态的情况最适合用隐马尔可夫模型来解释。这里的“隐”指的是其中某一阶的信息我们不知道，就像是我们知道人的祖先是三叶虫，但是由三叶虫经历了怎样的演变过程才演变到人的样子我们是不知道的，我们只能通过化石资料了解分布信息，如果这类资料很多，那么就可以利用隐马尔可夫模型来建模。

最大熵模型：我们的最终目的是想知道在某一个信息条件B下，得出某种可能的结果A的最大的概率，也就是条件概率P(A|B)最大的候选结果。因为最大熵就是不确定性最大，其实也就是条件概率最大，所以求最大的条件概率等同于求最大熵，而我们这里的熵其实是H(p)=H(A|B)=-∑p(b)p(a|b)log(p(a|b))。

条件随机场：场表示取值范围，随机场表示随机变量有取值范围，也就是每个随机变量有固定的取值，条件指的是随机变量的取值由一定的条件概率决定，而这里的条件来自于我们有一些观察值，这是它区别于其他随机场的地方。条件随机场也可以看做是一个无向图模型，它特殊就特殊在给定观察序列X时某个特定的标记序列Y的概率是一个指数函数exp(∑λt+∑μs)，其中t是转移函数，s是状态函数，我们需要训练的是λ和μ。条件随机场主要应用在标注和切分有序数据上，尤其在自然语言处理、生物信息学、机器视觉、网络智能等方面。

词性：常说的词性包括：名、动、形、数、量、代、副、介、连、助、叹、拟声。但自然语言处理中要分辨的词性要更多更精细，比如：区别词、方位词、成语、习用语、机构团体、时间词等，多达100多种。

汉语词性标注最大的困难是“兼类”，也就是一个词在不同语境中有不同的词性，而且很难从形式上识别。

词性标注：词性标注一般要经过“标注”和“校验”两个过程，第一步“标注”根据规则或统计的方法做词性标注，第二步“校验”通过一致性检查和自动校对等方法来修正。（隐马尔科夫模型(HMM)比较适合词性标注这种基于观察序列来做标注的情形）统计方法和规则方法相结合的词性标注方法：统计方法覆盖面比较广，新词老词通吃，常规非常规通吃，但对兼词、歧义等总是用经验判断，效果不好。规则方法对兼词、歧义识别比较擅长，但是规则总是覆盖不全（首选统计方法标注，同时计算它的置信度或错误率，这样来判断结果是否可疑，在可疑情况下采用规则方法来进行歧义消解）。

TF-IDF: TF(term frequency)，表示一个词在一个文档中出现的频率；IDF(inverse document frequency)，表示一个词出现在多少个文档中。

它的思路是这样的：同一个词在短文档中出现的次数和在长文档中出现的次数一样多时，对于短文档价值更大；一个出现概率很低的词一旦出现在文档中，其价值应该大于其他普遍出现的词。

词向量:维度一般较低，一般是50维或100维。

词向量的训练是一种无监督学习，基于三层神经网络构建n-gram语言模型(词向量顺带着就算出来了)的基本思路。

词向量应用：1>找同义词；google的word2vec工具，通过训练好的词向量，指定一个词，可以返回和它cos距离最相近的词并排序。

2>词性标注和语义角色标注任务；把词向量作为神经网络的输入层，通过前馈网络和卷积网络完成。

3>句法分析和情感分析任务；把词向量作为循环神经网络的输入。

4>命名实体识别和短语识别；把词向量作为扩展特征使用。

工具：jieba中文分词（结合了上述2种方法进行分词）

猜你喜欢