绪论
基本信息
- 50学时,3学分
- 宗成庆、张家俊
- 作业:方法实践+技术报告(小组或单人)
问题的提出
- 人物、事件关系分析意义重大
- 大量复杂数据人工难以应对
- 让计算机自动或者半自动理解自然语言文本
- 自然语言处理:让计算机实现海量语言文本的自动处理、挖掘河有效利用,满足不同用户的各种需求,实现个性化服务。
基本概念
- 语言学(Linguistics):
- 对语言的科学研究
- 研究语言的本质、结构和发展规律的学科
- 语音和文字是语言的两个基本属性
- 计算语言学(Computational Linguistics):
- 通过建立形式化的计算模型来分析、理解和生成自然语言的学科
- 交叉学科
- 比自然语言处理更侧重基础理论和方法的研究
- 考虑语言的建模、数学模型和方法的问题
- 区分1/3:语言建模和计算
- 自然语言理解(Natural Language Understanding):
- 研究模仿人类语言认知过程的自然语言处理方法和实现技术的学科
- 交叉学科(包含认知科学)
- 考虑语言的思维活动问题
- “理解”的标准:判断计算机的智能?
- 表现(act)、反应(react)、相互作用(interact)
- 与有意识的个体(人)的比较如何?图灵实验
- 区分2/3:语言认知
- 自然语言处理(Natural Language Processing):
- 利用计算机技术对语言文本进行处理和加工的学科
- 对词法、句法、语义和语用等信息的识别、分类、提取、转换和生成
- 区分3/3:语言工程系统的实现
- 三者的统一理解:人类语言技术研究(Human Language Technology)
- NLP -> CL -> NLU
- 语系:
- 屈折语(fusional language):用词的形态变化表示语法关系(英语)
- 黏着语(agglutinative language):词内有专门表示语法以以的附加成分,词根或词干与附加成分的结合不紧密(日语)
- 孤立语(isolating language):形态变化少,语法关系靠次序和虚词表示(汉语)
- 中文信息处理(Chinese Information Processing):针对中文的自然语言处理技术
学科的产生与发展
- 早期:理性主义,符号逻辑(规则、词典+算法)
- 中期:经验主义,统计学习(语料、特征+模型)
- 后期:连结主义,神经网络(语料+模型)
研究内容
-
机器翻译
- 实验一种语言到另一种语言的自动翻译
-
信息检索
- 情报检索,利用计算机系统从大量文档中找到符合用户需要的相关信息
-
自动文摘
- 将原文档主要内容或某方面的信息自动提取出来,形成摘要或缩写
-
问答系统
- 系统理解人提出䣌问题,利用自动推理,从知识资源中自动求解答案并作出相应的回答
- 可与语音技术结合,构成人机对话系统
- 社区问答
-
信息过滤
- 自动识别和过滤那些满足特定条件的文档信息
-
信息抽取
- 从指定文档中或海量文本中抽取出用户感兴趣的信息
- 实体关系抽取
- 社会网络
-
文档分类
- 文档自动分类或信息分类
- 对大量文档按照一定分类标准(主题、内容)实现自动归类
- 情感分类
-
文字编辑和自动校对
- 对文字拼写、用词甚至语法、文档格式等继续宁自动检查、校对和编排
- 难度较大
-
语言教学
-
文字识别
-
语音识别
- 将输入语音信号自动转换成书面文字
-
文语转换,语音合成
- 将书面文本自动转换成对应的语音表征
-
说话人识别
- 根据部分言语烟棍确定或验证说话人的身份
问题与挑战
- 形态学(Morphology)问题:词如何由有意义的基本单位——词素构成
- 屈折语的形态变化和单词的识别
- 汉语的分词问题
- 词素(morpheme):词根、前缀、后缀、词尾
- 句法(Syntax)问题:句子结构成分之间的相互关系和组成句子序列的规则
- 语义学(Semantic)问题:如何从一个语句中词的意义,以及这些词在该语句中句法结构中的作用来推导出该语句的意义
- 语用学(Pragmatic)问题:不同上下文中语句的应用以及上下文对语句理解产生的影响
- 语言结构中体现的语境
- 语义学未能涵盖的意义
- 大量歧义(ambiguity)困难:
- 词法歧义:形态变化,汉语切分
- 词性歧义
- 结构歧义
- 语义歧义
- 多音字和韵律歧义:一字多音,韵律声调等变化
- 大量未知语言现象困难
- 新词、人名、地名、术语
- 新含义
- 新用法和新句型
- 挑战
- 普遍存在的不确定性
- 未知语言现象的不可预测性
- 始终面临的数据不充分性
- 知识表示的复杂性
- 机器翻译中映射单元的不对等性
- 人脑理解语言是一个复杂的思维过程
基本方法与技术现状
- 基本方法
- 理性主义方法:基于规则的方法
- 经验主义方法:数据驱动方法
- 链接主义方法:数据驱动,神经网络
- 理性主义:通过对一些代表性语句或语言现象的研究得到对人的语言能力的认识,归纳语言使用的规律,以此分析、推断测试样本的预期效果
- 基于规则的分析方法建立符号处理系统
- 知识库+推理系统
- 理论基础:Chomsky的文法理论
- 规则方法:对规范结构的内容效果好,但是对非规则内容难以处理
- 经验主义:利用大量真实语言数据,结局人的帮助(标注和特征筛选),统计发现语言使用的规律及其可能性大小,以此为依据计算预测测试样本的可能结果
- 统计单元为离散事件
- 基于大规模真实数据建立计算模型
- 语料库+统计模型
- 理论技术:统计学、信息论、机器学习
- 贝叶斯公式
- 联结主义:利用大规模真实语言数据构建模型,统计发现语言使用的规律及其可能性大小,以此为依据计算预测测试样本的可能结果
- 统计单元为连续的实数空间表示(向量)
- 基于大规模真实数据建立计算模型
- 语料库+神经网络+统计模型
- 理论基础:统计学、深度学习
- 向量化表示,神经网络模型进行目标优化,RNN,注意力机制
- 数据驱动方法:不需要深层次分析,甚至不需要基本知识,依赖于数据量;但是数据量也是一个很难的问题,对复杂句子、生僻词汇、指代和译文一致性等难以处理,处理过程缺乏解释性