中文分词十年又回顾2007-2017

《中文分词十年有回顾》是上海交通大学赵海副教授整理的中文分词过去十年进展。

一、基本结论

中文分词的统计机器学习方法优于传统的规则方法,尤其是在未登录词(out-of-vocabulary words, OOV)即训练集上未出现的词的识别上,具有无可比拟的优势。

其一是长期以来,基于规则的方法获得了不错的效果,降低了研发先进机器学习技术的迫切性。

其二是统计学习方法计算量较大,当时的计算机很难高效处理机器学习的算法。

其三是标注语料的不足。

这几个原因使得中文分词的发展迟滞了数年之久,近十年左右的时间,中文分词的算法层出不穷,取得了一定的进步,赵海副教授主要从监督学习的角度进行了深度的总结。

二、中文分词数据集

  • 滨州大学中文树库(Chinese Penn Treebank, CTB)
  • 北京大学云计算语言所(标注的人民日报语料)
  • SIGHAN的国际中文分词测评数据集SIGHAN Bakeoff-2003等
  • 新浪微博语料

三、中文分词的统计学习方法

3.1 传统机器学习

传统机器学习分为两大类:
a)基于字标注的
b)基于词(相关特征)的
这一类方法包含最大熵Markov模型–Ng & Low (2004)和Low et al. (2005)。随后,出现了条件随机场分词模型Peng et al. (2004)和Tseng et al. (2005)。之后也有一些基于n-gram, semi-CRF等算法。

3.2 深度学习:神经网络

1)基本结论:

深度学习也称为表示学习,以降低特征工程的代价而著称,但是对于分词的任务,其发挥空间也非常有限。在SIGHAN Bakeoff-2005语料上的分词性能比较。神经分词系统 短短数年间取得了长足进步,但整体上仍然不敌传统模型。无论是分词精度还是计算效率上,和传统方法相比并都不具有显著优势。

在这里插入图片描述
图中的上半部分是传统机器学习方法,下半部分是深度学习方法。

2)期望改进方向

扫描二维码关注公众号,回复: 5329592 查看本文章

①有效集成字或者词的嵌入式表示,充分利用其中蕴含有效句法和语义的信息

②将神经网络的学习能力有效地和已有的传统结构化建模方法结合,如在经典的字位标注模型中用等价的相应网络结构进行置换。

3)封闭测试与开放测试

封闭测试要求不得使用训练集之外的语言资源,否则相应结果则是开放测试类别。

区别封闭和开放测试的一个主要目的,是分辨机器学习的性能提升的确是模型自身的改进,而非其他。

相当部分的神经分词的工作有意无意地忽略了以上做法的角色区分,实际上等于混淆了开放和封闭测试,更不用说很多神经模型系统甚至再次 使用额外的词典标注来强化其性能。这些做法严重干扰了对于当前神经分词模型的分析和效果评估:到底这些模型声称的性能提升,是来自新引入的深度学习模型,还是属于悄悄引入的外部资源的贡献?

四、结论汇总

  1. 神经分词系统短短数年间取得了长足进步,但整体上仍然不敌传统模型,无论是分词精度还是计算效率上,和传统方法相比都不具有显著优势。
  2. 大量的实验表明,外部资源对神经模型的性能性能的提升同样具有重要意义。
  3. 基本结论是统计机器学习系统的分词精度和训练语料规模大体符合Zipf律。即,语料规模指数增长,性能才能线性增长。和统计分词不同,更传统的规则分词,例如最大匹配法,其精度和所用的词典的规模成线性关系,因为分词错误主要是未登录词所导致的。这一结论意味着统计方法,无论是传统的字标注还是现代的神经模型,仍有巨大增长空间。
  4. 长期以来一直存在“字还是词”之争。字、词的特征学习需要在分词系统中均衡表达,才能获得最佳性能。所谓字、词正义的核心,对应于分词的两个指标,已知词的识别精度和未登录词的识别精度,前者识别精度很高,相对容易但所占百分比高,后者识别精度低、难度较大但所占百分比较低。经验证性的结果表明,强调基于字的特征及其表示会带来更好的未登录词的识别性能。原因无他,未登录词未在训练集出现,只能依赖于模型通过字的创造性组合才能识别。反过来,强调词特征的系统,包括基于词的切分系统,对于未登录词的识别效果通常略微逊色。
  5. 如果1)神经分词所取得的性能效果与传统分词系统大体相当而不是稍逊一筹;2)相当一部分的神经分词系统所报告的性能改进来自于经由字或词嵌入表示所额外引入的外部语言资源信息,而非模型本身或字词嵌入表示方式所导致的性能改进。
    如果说词嵌入表示蕴含着深层句法和语义信息的话,那么,这个结论似乎暗示一个推论,即分词学习是一个不需要太多句法和语义信息即可良好完成的任务。

《中文分词十年又回顾2007-2017》原文下载地址:
http://bcmi.sjtu.edu.cn/home/zhaohai/pubs/CWS-10Year-Review-2.pdf

猜你喜欢

转载自blog.csdn.net/AG9GgG/article/details/87611050
今日推荐