目录
文章目录
前言
硕士生涯结束,开始专心做一件自己觉得有用的工具,先做工程,后搞理论。
自然语言处理是一个非常难的问题,同时是人工智能皇冠上的明珠。
接下来会记录一系列自然语言处理的笔记,来自于哈工大老师关毅。
汉语的分词与频度统计(1)
词是自然语言处理中的最小单位。
语速,词,短语,句子,语群。
汉语词汇的特点
结合紧密,使用频繁,汉语的词可以拆开。
调换位置,有限度地展开。
字串可以切分为词串。
提出规划。
汉语的自动分词是他的重要组成部分,对他分词很困难。
新领域老方法,新瓶装旧酒。
汉语的分词与频度统计(2)
GB分词规划,提出了汉字的分词规则。
四字词语,一律是词。切分歧义,未登录词,比较困难。
比如提高中国人民生活水平比较困难。
覆盖型切分容易出问题,真歧义同属切分型。
如何排除歧义呢?
蛋鸡问题先有蛋。
分词做词切分,前驱字串和后驱字串。
词法信息实例。
歧义字串单切,句法规则调整。
利用语义信息实例进行切分。
新出现的词最困难,挂一漏万。
上下文出现的条件,以及分词系统。
互信息,极大方差,极大熵模型。
汉语的分词与频度统计(3)
主要分词方法,正向最大匹配方法,几个字符在一块儿。去掉一个词再试,逆向匹配方法。
双向匹配法。
最小分词方法:做的东西是给人看的。
创造力最丰富:20-40岁的时候。
不存在切分歧义的点:分段,计算最短路径。图的方法去理解这些东西。
词网格方法:生成所有可能切分的方式。计算词的概率。
汉语的分词与频度统计(4)
哈工大2005年第一名,做到95%。
语料库,平衡语料库。
生语料库,半生不熟语料库,句法分析所困。
语法分析十万级的词汇基本没用。
共时语料库,历时语料库。
发展时间一段时间以内,各种模型的正确率。
统计机器翻译,统计翻译模型。
中文信息语料库:英语:Brown corpus。
Penn Treebank。句法树,数学化。
双语语料库,法律文档语料库。
词频统计,构建词汇模型的核心。词典收词的规律。
汉语的分词与频度统计(5)
《现代汉语频率词典》LJVAC华语共时语料库。
建立了各地词典。双音节词最多,定量分析。
用词相同率和地域相关。
词频反映国家政策的变化。
汉语的分词与频度统计(6)
词频一个数表,高频虚,低频实词。定量分析,占90%的词低于10次。
zipf定律,f正比于1/r。
指数定理,同取对数。除特高频和特低频以外都符合。
语料库规律,可以推测句式规律。
1构语语言模型,模型多少词enough2heap’s law。
反映了词表长度与语料库的关系。平滑算法更好的保障。
汉语的分词与频度统计(7)
其他的统计分布规律,频度和频度词个数,推荐大家看,创世纪的第八天。
真正的科学,需要枯燥的处理一件事,需要把一件事情做到极致。