自然语言处理概述及应用和中文分词简述

自然语言处理概述及应用和中文分词简述

自然语言处理概述

0.概念

自然语言处理(Natural Language Processing,简称NLP)是主要研究人与计算机交际中的语言问题的一门学科。“自然语言处理要研制表示语言能力(linguistic competence)和语言应用(linguistic performance)的模型,建立计算机框架来实现这样的语言模型,提出相应的方法来不断完善这样的语言模型,根据这样的语言模型设计各种实用系统,并探讨这些实用系统的评测技术。”(Manaris,1999)更简单直观的说法,就是采用计算机技术来研究和处理自然语言。

1.自然语言处理分类

从方法论上可以分为两种:
理性主义方法(根据一套规则或程序,将自然语言理解为符号结构–可以从结构中符号的意义上推出结构的意义。 由人事先设计好规则集。 强调基于规则的方法);
经验主义方法(统计学的方法和神经网络学习方法。从大量的语言数据中获取语言的结构知识(语料库)。 强调基于学习的方法 )

2.语料库

大量真实自然语言文本组成的集合,它集合了语言的集体应用实例,通过利用一定的自动学习算法,主要是概率统计技术,从中获取带有相应概率的语言使用规则。从中获取的知识有:
a,词频统计数据(单个词的出现频率及相邻次的同现频率);
b,经过词性标注后某一标注串出现的频率;
c,词与词之间的联结关系、依存关系。

中文分词简述

1.汉语特点

大字符集的语言、形态上的区别少、没有词型变化、句型变化繁多、大量的同形歧义和同音歧义、一词多义。

2.语言分析

词法、句法、语义、语用、语境分析。

3.自动分词

A, 自动分词的方法:正向最大匹配法、逆向最大匹配法、逐次遍历匹配法、设立切分标志法、最佳匹配法、最小匹配法、最少词数切分法等。

B, 自动分词的指标:切分速度、切分精度、系统的可维护性。

C, 关键问题:分词的歧义问题;所采用的词典的构造、作用及完备性问题。

D, 歧义产生的原因及解决办法

分类 原因 解决办法
第一类歧义 自然语言中的二义性所产生的 分词知识处理;人工分词和计算机自动分词结合
第二类歧义 自动分词所产生的特有的 分词知识处理;联想-回溯法;基于词频统计的方法;邻接约束 法;基于数学期望的方法
第三类歧义 分词词典的大小产生的 增加构词知识;增加临时词典

4.自动标注

A, 意义:

  • 给后继处理提供词汇的语法层信息。
  • 给语料库的高层标注奠定基础。
  • 为语言学的研究提供翔实的基础。
  • 借助计算机自动识别出输入汉语词语的词性。

B, 实现方法:

采用规则方法:根据词性上下文的关系,总结出一系列的规则,在标注时如遇到一词多性,就调用系统所有的规则进行排歧。

缺点是覆盖面有限;规则库的庞大会使其维护起来困难重重。

采用统计方法:借助一个已经标记的熟语料库,标注时先根据语料库计算词性之间的同现概率,然后根据同现概率进行排歧处理。步骤如下:

  1. 首先制订词性标记集,人工标注预料中的正确词性;
  2. 其次统计这些语料,对每个词同现概率及词性概率;
  3. 根据这些统计数据判定给定句子的每个词的词性。

C, 汉语词的主要构成:

汉语词的兼类现象错综复杂,其主要构成如下:

  • 形同音不同。
  • 同音同型但意义上毫无关系。
  • 兼类词。
  • 上述情况的组合。

D, 划分词性的依据:

划分词性的三种依据:形态标准;意义标准;分布标准。

E, 标记集的设定分化原则:

一般标记集的设定分化有以下原则:

  • 完备性准则。
  • 确定性准则。
  • 交叉性最小原则。
  • 分布性准则。

F, 排歧方法:

利用词典资源进行排歧;利用语料库进行词义排歧。

G, 排歧步骤:

特征获取—>特征选择—>特征加权—>相似度计算。

5.句法分析

A, 主要功能:确定语句是否合乎语法;使句子结构规则化。

B, 句法分析的主要方法:短语结构语法、转换语法、链语法、扩充转移网络、基于合一的语法、广义的LR(left to right)算法等。

C, 汉语语法特性:

  • 字与字之间没有空格。
  • 一个词在不同的上下文中具有不同的语法功能。
  • 没有形态变化。
  • 构词规则可由很多不同的句法类型来实现。
  • 线性词序相对自由任意。
  • 多义词广泛存在。
  • 基本没有词性标注。

自然语言处理应用

1.机器翻译

这个是自然语言处理最为人知的场景,也是现在没有什么明确商业化的场景。一般都是拿这种机器翻译来作为某个应用的组成部分,比入跨语言的搜索引流等等。国内外对于机器翻译都有比较成熟的产品,比如百度翻译、有道翻译、Google 翻译等等。机器翻译由于涉及到语义分析、上下文环境等面临很多挑战。

Google在线翻译: https://translate.google.cn/

Google翻译使用算法:

Sequence-to-Sequence模型(也称为seq2seq)。基本的seq2seq模型由两个RNN(循环神经网络:利用它内部的记忆来处理任意时序的输入序列)组成:一个是处理输入的编码器网络,一个是生成输出的解码器网络。

2.情感分析

情感分析在一些评论机制的app中比较有用,比如某酒店网站,下面会有居住过的客人的评价,如果评论有几千条,满满的都是脏乱差,那谁还想住呢!所以可以通过情感分析,分析用户评论是积极的还是消极的,根据一定的排序规则和显示比例,在评论区显示。同样这个场景也适用于电商网站的商品评价。

TTM(Time-Type-Mood message)算法:基于访问时间、资源种类和心情留言的推荐算法。(《学习系统中基于用户行为分析的推荐算法研究》)

3.智能问答

问答系统在一些电商网站也很有实际价值,比如充当客服角色。有很多基本的问题,其实并不需要真的联系人工客服来解决。通过这种智能的问答系统,就可以排除掉大量的用户问题,比如商品的质量投诉、商品的基本信息查询之类的。这样可以省去大量的人工成本。

图灵机器人:http://www.tuling123.com/experience/exp_virtual_robot.jhtml?nav=exp

使用算法:

递归神经网络(Recursive Neural Network)、循环神经网络(Recurrent Neural Network,RNN)、卷积神经网络(Convolutional Neural Network, CNN)

4.信息提取

在很多搜索引擎的公司,都会采集各种数据,然后进行信息的提取分析。比如新闻的自动分类,就需要针对文本提取关键信息,然后应用一些tf-idf的算法,进行主要的主题分析,从而进行自动的分类。

使用算法:

LBP算法(Local Binary Pattern局部二值模式):《基于视觉信息的图像特征提取算法研究》
行块分布函数:《基于行块分布函数的通用网页正文抽取算法》

5.语音输入

根据的中文同声传译翻译成英文。翻译器视频:

参考:http://www.shidi.org/sf_DEB72250E26D4F96A9CB2857439BE6ED_277_xhat.html

6.舆论分析

说到这个舆论分析,最著名的就是奥巴马的总统竞选了。比如通过数据分析筹集资金,改变广告的投放策略,制作有效的拉票推荐等等。

参考:http://tech.qq.com/a/20121108/000182.htm

7.语言生成

自然语言处理在语言生成方面目前也有很多的应用场景(新闻、篮球解说、文本摘要),比如体育类节目的ai解说:

参考:http://www.techweb.com.cn/it/2016-08-17/2376291_4.shtml

8.知识图谱

它能够描述复杂的关联关系。知识图谱是面向业务领域的,比如百度描述明星关系的案例。

参考:http://tupu.baidu.com/xiaoyuan/

'''笔者的话:小白一个,最近一直在学习自然语言处理。以后准备在这方面发展。也就计划开始写博客,希望自己有所提升。文中主要是笔者看过的文章和书籍中整理出来的,第一次发博客。当中肯定有许多瑕疵,内容肯定也不是那么完善。请大家多多包含,以后会更加努力,争取写出质量高的文章。FIGHTING...(热烈欢迎大家批评指正,互相讨论)
(第一步总是很难的,坚持下去更难。希望自己迎难而上。)'''

猜你喜欢

转载自blog.csdn.net/cjx14060307101/article/details/85047732