自然语言处理-1

声明

《自然语言处理》课程笔记
授课老师 常宝宝

引言

助教 周昆
课程较基础,专业性强
上课、作业!无考试。2个大作业(自己的数据集 模型 深入体会,不是简单训练)
涉及深度学习,不是重点(自然语言处理比深度学习历史悠久很多) 浅层处理?
规则方法-少

参考书

计算语言学概论 俞士

会议 期刊

会议比较重要
ACL年会 自然语言处理领域最重要会议A类
EMNLP (Empirical Methods)经验方法(now 主流) (vs 规则方法)

Computational Linguistics (ACL) 最重要期刊
2 3比较新

概要

自然语言 交流、思维
自然演化,不是预先设计,会不断变化
人造语言
规划设计 e.g. programming 机器与人交流

人类具有理解和生成语言的能力
动机:让计算机也具有理解和生成语言的能力

概念

强调 形式化计算模型
理解 NLU
生成 NLG 进展较少,在特定环境下
OCR 语音识别-预处理,还没有开始理解

学科定位

与人工智能其实相对独立,比人工智能早
人工智能中很困难的部分
交叉学科:处理的建模工具-数学,将其转化为数学问题 计算机科学-研究工具 语言学-工具、处理对象

图灵测试:人工智能的测试
用键盘输入方式提问(不知道人/机器)若无法判别,则该机器=智能
回避了语言的机器理解??具有缺陷

分层分析处理,推进理解

end-to-end model 端到端处理 回避了理解

不要预处理和特征提取,直接把原始数据扔进去得到最终结果
缩减人工预处理和后续处理

e.g. 人机对话?能回答可视为理解了?

词法分析

  1. 汉语分词
    南京市长江大桥/能穿多少穿多少
  2. 词类标注 POS tagging
    n. v. adj. 注意兼类词
  3. 命名实体识别 NER

句法分析

句法结构-一般为树结构

语义分析

  1. 词义标注
    多义词
  2. 语义角色标记
    语言角色理论 谓语为句子中心,再识别名词性成分在谓词处承担的作业
    部分句义分析-at where中语义未分析 浅层分析

NLP基本方法

基于规则的方法

=符号主义 / 理性主义
机器具有语言学的知识-通过人类专家以规则的形式总结和形式化(规则形态的知识库)注入计算机

e.g. 动词短语VP / 名词短语NP + 介词短语PP →更大的*词短语
容易引起歧义
telescope是谁的?

语法有例外/漏洞 - 规则方法无法精准建立

基于统计的方法

=机器学习方法 / 经验主义 目前主流
机器从语言样本自动学习

建立语料库
大量样本

词袋模型:扔骰子-选词(选定一个词后应该考虑相关性,改变后面词选出的概率)
马尔科夫过程:
需要分布参数

问题

模型只是现实世界的简化,并不能精确表示语言
需要大量语言样本,样本的代表性需求高,标注代价高
数据稀疏 大量低频的用法

挑战

歧义 Ambiguity

前面讲的各种类型 - 引起歧义
NLP 核心 解决歧义

海量的知识需求

多学科交叉,且计算机需要注入世界知识(常识)

理性主义:不存在完备的规则

经验主义:数据稀疏问题

应用

广阔应用领域

机器翻译

FAHQMT fully advanced high quality machine translation

信息提取

文本数据结构化:信息散落在文章中

其它

垃圾邮件过滤

发展简史

计算机 最早用于计算 现在主要用于符号处理
Warren Weaver 1949 提出用于翻译
Chomsky 57年提出放弃统计方法,当时数据少,算力低
仅仅增加规则,不能极大优化,且效率大幅下降
ALPAC会议 1966 否认了机器翻译,认为语义障碍难以跨越
SYSTRAN 翻译后再编辑
70年代,AI繁荣,自然语言处理也复苏
90年代,统计方法复苏

猜你喜欢

转载自blog.csdn.net/OliveDS/article/details/87771025