自然语言处理概述及应用和中文分词简述

自然语言处理概述

0.概念

自然语言处理(Natural Language Processing，简称NLP)是主要研究人与计算机交际中的语言问题的一门学科。“自然语言处理要研制表示语言能力(linguistic competence)和语言应用(linguistic performance)的模型，建立计算机框架来实现这样的语言模型，提出相应的方法来不断完善这样的语言模型，根据这样的语言模型设计各种实用系统，并探讨这些实用系统的评测技术。”(Manaris，1999)更简单直观的说法，就是采用计算机技术来研究和处理自然语言。

1.自然语言处理分类

从方法论上可以分为两种：
理性主义方法（根据一套规则或程序，将自然语言理解为符号结构–可以从结构中符号的意义上推出结构的意义。由人事先设计好规则集。强调基于规则的方法）；
经验主义方法（统计学的方法和神经网络学习方法。从大量的语言数据中获取语言的结构知识（语料库）。强调基于学习的方法）

2.语料库

大量真实自然语言文本组成的集合，它集合了语言的集体应用实例，通过利用一定的自动学习算法，主要是概率统计技术，从中获取带有相应概率的语言使用规则。从中获取的知识有：
a,词频统计数据（单个词的出现频率及相邻次的同现频率）；
b,经过词性标注后某一标注串出现的频率；
c,词与词之间的联结关系、依存关系。

中文分词简述

1.汉语特点

大字符集的语言、形态上的区别少、没有词型变化、句型变化繁多、大量的同形歧义和同音歧义、一词多义。

2.语言分析

词法、句法、语义、语用、语境分析。

3.自动分词

A, 自动分词的方法：正向最大匹配法、逆向最大匹配法、逐次遍历匹配法、设立切分标志法、最佳匹配法、最小匹配法、最少词数切分法等。

B, 自动分词的指标：切分速度、切分精度、系统的可维护性。

C, 关键问题：分词的歧义问题；所采用的词典的构造、作用及完备性问题。

D, 歧义产生的原因及解决办法：

分类	原因	解决办法
第一类歧义	自然语言中的二义性所产生的	分词知识处理；人工分词和计算机自动分词结合
第二类歧义	自动分词所产生的特有的	分词知识处理；联想-回溯法；基于词频统计的方法；邻接约束法；基于数学期望的方法
第三类歧义	分词词典的大小产生的	增加构词知识；增加临时词典

4.自动标注

A, 意义：

给后继处理提供词汇的语法层信息。
给语料库的高层标注奠定基础。
为语言学的研究提供翔实的基础。
借助计算机自动识别出输入汉语词语的词性。

B, 实现方法：

采用规则方法：根据词性上下文的关系，总结出一系列的规则，在标注时如遇到一词多性，就调用系统所有的规则进行排歧。

缺点是覆盖面有限；规则库的庞大会使其维护起来困难重重。

采用统计方法：借助一个已经标记的熟语料库，标注时先根据语料库计算词性之间的同现概率，然后根据同现概率进行排歧处理。步骤如下：

首先制订词性标记集，人工标注预料中的正确词性；
其次统计这些语料，对每个词同现概率及词性概率；
根据这些统计数据判定给定句子的每个词的词性。

C, 汉语词的主要构成：

汉语词的兼类现象错综复杂，其主要构成如下：

形同音不同。
同音同型但意义上毫无关系。
兼类词。
上述情况的组合。

D, 划分词性的依据：

划分词性的三种依据：形态标准；意义标准；分布标准。

E, 标记集的设定分化原则：

一般标记集的设定分化有以下原则：

完备性准则。
确定性准则。
交叉性最小原则。
分布性准则。

F, 排歧方法：

利用词典资源进行排歧；利用语料库进行词义排歧。

G, 排歧步骤：

特征获取—>特征选择—>特征加权—>相似度计算。

5.句法分析

A, 主要功能：确定语句是否合乎语法；使句子结构规则化。

B, 句法分析的主要方法：短语结构语法、转换语法、链语法、扩充转移网络、基于合一的语法、广义的LR（left to right）算法等。

C, 汉语语法特性：

字与字之间没有空格。
一个词在不同的上下文中具有不同的语法功能。
没有形态变化。
构词规则可由很多不同的句法类型来实现。
线性词序相对自由任意。
多义词广泛存在。
基本没有词性标注。

自然语言处理应用

1.机器翻译

这个是自然语言处理最为人知的场景，也是现在没有什么明确商业化的场景。一般都是拿这种机器翻译来作为某个应用的组成部分，比入跨语言的搜索引流等等。国内外对于机器翻译都有比较成熟的产品，比如百度翻译、有道翻译、Google 翻译等等。机器翻译由于涉及到语义分析、上下文环境等面临很多挑战。

Google在线翻译： https://translate.google.cn/

Google翻译使用算法：

Sequence-to-Sequence模型(也称为seq2seq)。基本的seq2seq模型由两个RNN(循环神经网络：利用它内部的记忆来处理任意时序的输入序列)组成:一个是处理输入的编码器网络，一个是生成输出的解码器网络。

2.情感分析

情感分析在一些评论机制的app中比较有用，比如某酒店网站，下面会有居住过的客人的评价，如果评论有几千条，满满的都是脏乱差，那谁还想住呢！所以可以通过情感分析，分析用户评论是积极的还是消极的，根据一定的排序规则和显示比例，在评论区显示。同样这个场景也适用于电商网站的商品评价。

TTM（Time-Type-Mood message）算法:基于访问时间、资源种类和心情留言的推荐算法。（《学习系统中基于用户行为分析的推荐算法研究》）

3.智能问答

问答系统在一些电商网站也很有实际价值，比如充当客服角色。有很多基本的问题，其实并不需要真的联系人工客服来解决。通过这种智能的问答系统，就可以排除掉大量的用户问题，比如商品的质量投诉、商品的基本信息查询之类的。这样可以省去大量的人工成本。

图灵机器人：http://www.tuling123.com/experience/exp_virtual_robot.jhtml?nav=exp

使用算法：

递归神经网络（Recursive Neural Network）、循环神经网络（Recurrent Neural Network，RNN）、卷积神经网络（Convolutional Neural Network, CNN）

4.信息提取

在很多搜索引擎的公司，都会采集各种数据，然后进行信息的提取分析。比如新闻的自动分类，就需要针对文本提取关键信息，然后应用一些tf-idf的算法，进行主要的主题分析，从而进行自动的分类。

使用算法：

LBP算法（Local Binary Pattern局部二值模式）:《基于视觉信息的图像特征提取算法研究》
行块分布函数：《基于行块分布函数的通用网页正文抽取算法》

5.语音输入

根据的中文同声传译翻译成英文。翻译器视频：

参考：http://www.shidi.org/sf_DEB72250E26D4F96A9CB2857439BE6ED_277_xhat.html

6.舆论分析

说到这个舆论分析，最著名的就是奥巴马的总统竞选了。比如通过数据分析筹集资金，改变广告的投放策略，制作有效的拉票推荐等等。

参考：http://tech.qq.com/a/20121108/000182.htm

7.语言生成

自然语言处理在语言生成方面目前也有很多的应用场景（新闻、篮球解说、文本摘要），比如体育类节目的ai解说：

参考：http://www.techweb.com.cn/it/2016-08-17/2376291_4.shtml

8.知识图谱

它能够描述复杂的关联关系。知识图谱是面向业务领域的，比如百度描述明星关系的案例。

参考：http://tupu.baidu.com/xiaoyuan/

＇＇＇笔者的话：小白一个，最近一直在学习自然语言处理。以后准备在这方面发展。也就计划开始写博客，希望自己有所提升。文中主要是笔者看过的文章和书籍中整理出来的，第一次发博客。当中肯定有许多瑕疵，内容肯定也不是那么完善。请大家多多包含，以后会更加努力，争取写出质量高的文章。ＦＩＧＨＴＩＮＧ．．．（热烈欢迎大家批评指正，互相讨论）
（第一步总是很难的，坚持下去更难。希望自己迎难而上。）＇＇＇