自然语言处理-1

声明

《自然语言处理》课程笔记
授课老师常宝宝

引言

助教周昆
课程较基础，专业性强
上课、作业！无考试。2个大作业（自己的数据集模型深入体会，不是简单训练）
涉及深度学习，不是重点（自然语言处理比深度学习历史悠久很多）浅层处理？
规则方法-少

参考书

计算语言学概论俞士

会议期刊

会议比较重要
ACL年会自然语言处理领域最重要会议A类
EMNLP (Empirical Methods)经验方法(now 主流) （vs 规则方法）

Computational Linguistics (ACL) 最重要期刊
2 3比较新

概要

自然语言交流、思维
自然演化，不是预先设计，会不断变化
人造语言
规划设计 e.g. programming 机器与人交流

人类具有理解和生成语言的能力
动机：让计算机也具有理解和生成语言的能力

概念

强调形式化计算模型
理解 NLU
生成 NLG 进展较少，在特定环境下
OCR 语音识别-预处理，还没有开始理解

学科定位

与人工智能其实相对独立，比人工智能早
人工智能中很困难的部分
交叉学科：处理的建模工具-数学，将其转化为数学问题 计算机科学-研究工具 语言学-工具、处理对象

图灵测试：人工智能的测试
用键盘输入方式提问（不知道人/机器）若无法判别，则该机器=智能
回避了语言的机器理解？？具有缺陷

分层分析处理，推进理解

end-to-end model 端到端处理回避了理解

不要预处理和特征提取，直接把原始数据扔进去得到最终结果
缩减人工预处理和后续处理

e.g. 人机对话？能回答可视为理解了？

词法分析

汉语分词
南京市长江大桥/能穿多少穿多少
词类标注 POS tagging
n. v. adj. 注意兼类词
命名实体识别 NER

句法分析

句法结构-一般为树结构

语义分析

词义标注
多义词
语义角色标记
语言角色理论 谓语为句子中心，再识别名词性成分在谓词处承担的作业
部分句义分析-at where中语义未分析浅层分析

NLP基本方法

基于规则的方法

=符号主义 / 理性主义
机器具有语言学的知识-通过人类专家以规则的形式总结和形式化（规则形态的知识库）注入计算机

e.g. 动词短语VP / 名词短语NP + 介词短语PP →更大的*词短语
容易引起歧义
telescope是谁的？

语法有例外/漏洞 - 规则方法无法精准建立

基于统计的方法

=机器学习方法 / 经验主义目前主流
机器从语言样本中自动学习

建立语料库
大量样本

词袋模型：扔骰子-选词（选定一个词后应该考虑相关性，改变后面词选出的概率）
马尔科夫过程：
需要分布参数

问题

模型只是现实世界的简化，并不能精确表示语言
需要大量语言样本，样本的代表性需求高，标注代价高
数据稀疏大量低频的用法

挑战

歧义 Ambiguity

前面讲的各种类型 - 引起歧义
NLP 核心 解决歧义

海量的知识需求

多学科交叉，且计算机需要注入世界知识(常识)

理性主义：不存在完备的规则

经验主义：数据稀疏问题

应用

广阔应用领域

机器翻译

FAHQMT fully advanced high quality machine translation

信息提取

文本数据结构化：信息散落在文章中

其它

垃圾邮件过滤

发展简史

计算机最早用于计算现在主要用于符号处理
Warren Weaver 1949 提出用于翻译
Chomsky 57年提出放弃统计方法，当时数据少，算力低
仅仅增加规则，不能极大优化，且效率大幅下降
ALPAC会议 1966 否认了机器翻译，认为语义障碍难以跨越
SYSTRAN 翻译后再编辑
70年代，AI繁荣，自然语言处理也复苏
90年代，统计方法复苏