NLP----Baidu-中文词法分析（LAC） - 代码天地

NLP----Baidu-中文词法分析（LAC）

其他 2018-08-05 17:01:40 阅读次数: 0

简介

LAC是一个联合的词法分析模型，整体性地完成中文分词、词性标注、专名识别任务。LAC既可以认为是Lexical Analysis of
Chinese的首字母缩写，也可以认为是LAC Analyzes Chinese的递归缩写。

LAC基于一个堆叠的双向GRU结构，在长文本上准确复刻了百度AI开放平台上的词法分析算法。效果方面，分词、词性、专名识别的整体准确率95.5%；单独评估专名识别任务，F值87.1%（准确90.3，召回85.4%），总体略优于开放平台版本。在效果优化的基础上，LAC的模型简洁高效，内存开销不到100M，而速度则比百度AI开放平台提高了57%。

模型

词法分析任务的输入是一个字符串（我们后面使用『句子』来指代它），而输出是句子中的词边界和词性、实体类别。序列标注是词法分析的经典建模方式。我们使用基于GRU的网络结构学习特征，将学习到的特征接入CRF解码层完成序列标注。CRF解码层本质上是将传统CRF中的线性模型换成了非线性神经网络，基于句子级别的似然概率，因而能够更好的解决标记偏置问题。模型要点如下，具体细节请参考python/train.py代码。

输入采用one-hot方式表示，每个字以一个id表示 one-hot序列通过字表，转换为实向量表示的字向量序列；
字向量序列作为双向GRU的输入，学习输入序列的特征表示，得到新的特性表示序列，我们堆叠了两层双向GRU以增加学习能力；
CRF以GRU学习到的特征为输入，以标记序列为监督信号，实现序列标注。

论文

Jiao, Zhenyu and Sun, Shuqi and Sun, Ke 《Chinese Lexical Analysis with Deep Bi-GRU-CRF Network》
https://arxiv.org/abs/1807.01882

github

https://github.com/baidu/lac

猜你喜欢

转载自blog.csdn.net/ld326/article/details/81364405

NLP----Baidu-中文词法分析（LAC）

python:中文词法分析（LAC）

paddlepaddle中文词法分析LAC

NLP---THULAC：一个高效的中文词法分析工具包

Hanlp分词之CRF中文词法分析详解

THULAC：一个高效的中文词法分析工具包

[撒花\*/]百度词法分析工具LAC

中文词频分析

自然语言处理-如何使用百度的中文开源词法分析工具(LAC) 进行命名实体语料标注 python

深度学习中文NLP任务实战（一）：中文词向量的训练

LAC

使用python进行“中文词频分析”学习笔记

【python 走进NLP】使用Jieba进行中文词性标注

资源 | 腾讯开源800万中文词的NLP数据集

NLP模型笔记2022-16：词向量与中文词向量论文综述

NLP：使用 gensim 中的 word2vec 训练中文词向量

中文词性标注

中文词向量

中文词向量训练

中文词频统计

中文词启动

词法分析

.词法分析

词法分析——词法分析的任务

自然语言处理（NLP）词法分析--词性标注原理与工具

自然语言处理（NLP）词法分析--文本关键词提取

中文词频统计中文词频统计

python中文词云生成

中文词向量论文综述

Solr中文词库配置

今日推荐

周排行

小程序的背景图片

SpringBoot项目架构小实例

[多线程] Wait和Notify方法解析

第五章绘图基础（ALTWIND）

HDU 6386 Age of Moyu 【bfs】【spfa】

如何在windows上搭载PHP环境并编写运行第一个PHP代码

CF1006C 【Three Parts of the Array】

FastAdmin 增删改查在哪里？

区块链安全吗？

docker Dockerfile实战

每日归档

更多

2024-06-16(0)

2024-06-15(0)

2024-06-14(0)

2024-06-13(0)

2024-06-12(0)

2024-06-11(0)

2024-06-10(0)

2024-06-09(0)

2024-06-08(0)

2024-06-07(0)