自然语言处理笔记2-哈工大 关毅

目录

前言

硕士生涯结束,开始专心做一件自己觉得有用的工具,先做工程,后搞理论。
自然语言处理是一个非常难的问题,同时是人工智能皇冠上的明珠。
接下来会记录一系列自然语言处理的笔记,来自于哈工大老师关毅

自然语言处理概论(七)

人工智能经典实验,图灵实验,想象人和一块机器隔着屏幕讲话,如果,人无法判断对面是机器还是人,那就说明这个机器通过了图灵测试。
强调一点,人工智能的发展还是要依赖于对人大脑机理的了解,做出真正的人工智能。
涉及的学科:计算语言学,应用语言学,计算机科学。
可计算的方法来自于数学的理论基础和人的心理学模型。
将人理解自然语言的步骤反着来一遍,就可以做出真正的自然语言理解。
现在想要在理论上做出大的创新,需要的是交叉学科,需要的是共同创新。
计算语言学侧重于语言处理的基础。自然语言理解侧重于智能化人机接口。

自然语言处理概论(八)

汉语的特性:
大字符集的意音文字,同义多,词态无变化,语法研究不规范。
汉语语言形式化和量化工作滞后。
力量较分散,分词评测系统很难。
基础理论讲解:1概率统计2统计机器学习3人工智能4认知科学理论。
人工智能理论:1组合优化方法2逻辑方法
可研究的内容:1词法分析2句法分析3上下文无关分析4语义分析5概念网络6机器翻译。
数学基础与语言学基础(一)
从小规模语料库统计出语料信息然后在大规模语料库里面使用。
个人的感受:
工程开发经验以后,必须做一个精密的系统,收集分析情况,构造推断模型。
概率论是我们的研究基础,它研究的是随机现象的规律,词汇的分布也符合幂律。

数学基础和语言学基础(1)

1948年,熵出现,
H ( P ) = x Ω p ( x ) l o g p ( x ) H(P)=\sum_{x 属于 \Omega }-p(x)*log_p(x)
不确定性的信息熵最大,完全确定的信息,信息熵最小。
冯志伟汉语信息量最大。
条件概率复习:
P(A|B),B为真时A发生的概率。

数学基础和语言学基础(2)

贝叶斯定理
P ( A B ) = P ( A , B ) P ( B ) = P ( B A ) P ( A ) P ( B ) = a r g m a x A P ( B A ) P ( A ) P(A|B)=\frac{P(A,B)}{P(B)}=\frac{P(B|A)*P(A)}{P(B)}=argmax_AP(B|A)*P(A)
应用,音字替换,贝叶斯定理,将一个大问题分解成两个小的问题的乘积。
随机变量,数学期望与方差。
无参数分布以及有参数分布。
极大似然估计和贝叶斯统计。
语言学基础:
1汉语的分类:可以分为实,虚,叹。
属于黏着语。

数学基础和语言学基础(3)

语法分类,句法分析特点。
汉语句法分析的特殊性。
一个词可以在句中担任多种成分,切勿形态变化。
语言知识库,一个关键核心部分,调整知识库。
现代汉语语法信息词典,语用层提示到语义层。

数学基础和语言学基础(4)

贝叶斯公式和一个核心。
oncology是核心。
hownet搭建了一个意元为基础的框架。
定义意元很难,派生整个系统。

数学基础和语言学基础(5)

搜索系统,人性化提问。
大规模文本抽取答案。
语义相似度的计算,基于库或者基于统计的方法。
机器可读词典。
二进制文件构造你的词典,保护知识产权。

猜你喜欢

转载自blog.csdn.net/lvsehaiyang1993/article/details/84944820