自然语言处理笔记3-哈工大 关毅

目录

前言

硕士生涯结束,开始专心做一件自己觉得有用的工具,先做工程,后搞理论。
自然语言处理是一个非常难的问题,同时是人工智能皇冠上的明珠。
接下来会记录一系列自然语言处理的笔记,来自于哈工大老师关毅。

汉语的分词与频度统计(1)

{ if  if  if  语言分类\begin{cases} 孤立语&\text{if } 没有附加词,如汉语\\ 黏着语 &\text{if } 有附加词 ,如日语 \\ 曲折语 &\text{if } 形态变化,如英语 \end{cases}
词是自然语言处理中的最小单位。
语速,词,短语,句子,语群。

汉语词汇的特点

结合紧密,使用频繁,汉语的词可以拆开。
调换位置,有限度地展开。
字串可以切分为词串。
提出规划。
汉语的自动分词是他的重要组成部分,对他分词很困难。
新领域老方法,新瓶装旧酒。

汉语的分词与频度统计(2)

GB分词规划,提出了汉字的分词规则。
四字词语,一律是词。切分歧义,未登录词,比较困难。
比如提高中国人民生活水平比较困难。
覆盖型切分容易出问题,真歧义同属切分型。
如何排除歧义呢?
蛋鸡问题先有蛋。
分词做词切分,前驱字串和后驱字串。
词法信息实例。
歧义字串单切,句法规则调整。
利用语义信息实例进行切分。
新出现的词最困难,挂一漏万。
上下文出现的条件,以及分词系统。
互信息,极大方差,极大熵模型。

汉语的分词与频度统计(3)

主要分词方法,正向最大匹配方法,几个字符在一块儿。去掉一个词再试,逆向匹配方法。
双向匹配法。
最小分词方法:做的东西是给人看的。
创造力最丰富:20-40岁的时候。
不存在切分歧义的点:分段,计算最短路径。图的方法去理解这些东西。
词网格方法:生成所有可能切分的方式。计算词的概率。

汉语的分词与频度统计(4)

哈工大2005年第一名,做到95%。
语料库,平衡语料库。
生语料库,半生不熟语料库,句法分析所困。
语法分析十万级的词汇基本没用。
共时语料库,历时语料库。
发展时间一段时间以内,各种模型的正确率。
统计机器翻译,统计翻译模型。
中文信息语料库:英语:Brown corpus。
Penn Treebank。句法树,数学化。
双语语料库,法律文档语料库。
词频统计,构建词汇模型的核心。词典收词的规律。

汉语的分词与频度统计(5)

《现代汉语频率词典》LJVAC华语共时语料库。
建立了各地词典。双音节词最多,定量分析。
用词相同率和地域相关。
词频反映国家政策的变化。

汉语的分词与频度统计(6)

词频一个数表,高频虚,低频实词。定量分析,占90%的词低于10次。
zipf定律,f正比于1/r。
y = k x c y=kx^c
指数定理,同取对数。除特高频和特低频以外都符合。
语料库规律,可以推测句式规律。
1构语语言模型,模型多少词enough2heap’s law。
反映了词表长度与语料库的关系。平滑算法更好的保障。

汉语的分词与频度统计(7)

其他的统计分布规律,频度和频度词个数,推荐大家看,创世纪的第八天。
真正的科学,需要枯燥的处理一件事,需要把一件事情做到极致。

猜你喜欢

转载自blog.csdn.net/lvsehaiyang1993/article/details/84979447