HUNER: improving biomedical NER with pretraining

动机
近期的一些研究表明,深度神经网络的应用使包括生物医学NER在内的命名实体识别(NER)有了最先进的技术。但是,对性能的影响和改进的鲁棒性主要取决于足够大的训练语料库的可用性,这在生物医学领域是一个问题,因为它通常是相当小的金标准语料库。

结果
我们通过预先训练一个深度神经网络(LSTM-CRF),然后进行一个针对特定语料库的相当短的微调阶段,来评估缓解数据稀疏性问题的不同方法。使用34种不同的语料库进行了实验,涵盖了5种不同的生物医学实体类型,与没有进行预训练的学习相比,F1分数平均增加了约2 pp。我们在有监督和半监督的预训练中进行了实验,从而获得了关于精度/召回权衡的有趣见解。根据我们的结果,我们创建了独立的NER工具HUNER,其中包含针对五种实体类型的经过全面训练的模型。在未用于创建HUNER的独立CRAFT语料库上,它在实体类型化学物质,物种和基因方面比最先进的工具GNormPlus和tmChem高5-13 pp。

可用性和实施
HUNER可从https://hu-ner.github.io免费获得。 HUNER包含在容器中,使其易于安装和使用,并且可以直接应用于任意文本。我们还提供了一个集成工具,用于获取和转换评估中使用的所有34个语料库,包括固定培训,开发和测试拆分,以便将来进行公平比较。

注:此篇未公布原文

发布了241 篇原创文章 · 获赞 6 · 访问量 7249

猜你喜欢

转载自blog.csdn.net/qq_28468707/article/details/103863370
NER
今日推荐