NLP----Baidu-中文词法分析(LAC)

简介

LAC是一个联合的词法分析模型,整体性地完成中文分词、词性标注、专名识别任务。LAC既可以认为是Lexical Analysis of
Chinese的首字母缩写,也可以认为是LAC Analyzes Chinese的递归缩写。

LAC基于一个堆叠的双向GRU结构,在长文本上准确复刻了百度AI开放平台上的词法分析算法。效果方面,分词、词性、专名识别的整体准确率95.5%;单独评估专名识别任务,F值87.1%(准确90.3,召回85.4%),总体略优于开放平台版本。在效果优化的基础上,LAC的模型简洁高效,内存开销不到100M,而速度则比百度AI开放平台提高了57%。

模型

词法分析任务的输入是一个字符串(我们后面使用『句子』来指代它),而输出是句子中的词边界和词性、实体类别。序列标注是词法分析的经典建模方式。我们使用基于GRU的网络结构学习特征,将学习到的特征接入CRF解码层完成序列标注。CRF解码层本质上是将传统CRF中的线性模型换成了非线性神经网络,基于句子级别的似然概率,因而能够更好的解决标记偏置问题。模型要点如下,具体细节请参考python/train.py代码。

输入采用one-hot方式表示,每个字以一个id表示 one-hot序列通过字表,转换为实向量表示的字向量序列;
字向量序列作为双向GRU的输入,学习输入序列的特征表示,得到新的特性表示序列,我们堆叠了两层双向GRU以增加学习能力;
CRF以GRU学习到的特征为输入,以标记序列为监督信号,实现序列标注。

论文

Jiao, Zhenyu and Sun, Shuqi and Sun, Ke 《Chinese Lexical Analysis with Deep Bi-GRU-CRF Network》
https://arxiv.org/abs/1807.01882

github

https://github.com/baidu/lac

猜你喜欢

转载自blog.csdn.net/ld326/article/details/81364405
LAC