CollaboNet: collaboration of deep neural networks for biomedical named entity recognition

Abstract

由于深度学习方法需要大量的训练数据,因此缺乏数据会影响性能。 BioNER数据集是稀缺资源,每个数据集仅涵盖实体类型的一小部分。此外,许多生物实体是多义性的,这是命名实体识别的主要障碍之一。

为了解决数据不足和实体类型分类错误的问题,我们提出了CollaboNet,它利用了多个NER模型的组合。在CollaboNet中,将在不同数据集上训练的模型相互连接,以便目标模型从其他协作者模型获取信息以减少误报。每个模型都是目标实体类型的专家,并在训练期间轮流充当目标和协作者模型。

Background

生物医学文本的数量继续迅速增加。 2017年,PubMed Central [1]上有470万篇全文在线可访问文章。利用生物医学文本数据的障碍之一是,对于人类来说,它太大了,无法阅读甚至搜索所需的信息。这导致了对自动提取有价值信息的需求。文本挖掘可用于将耗时的任务转变为完全自动化的工作[2-7]。命名实体识别(NER)是在给定文本中识别和标记实体的计算机化过程。在生物医学领域,典型的实体类型包括疾病,化学物质,基因和蛋白质。
生物医学命名实体识别(BioNER)是许多下游文本挖掘应用程序的重要组成部分,例如提取药物相互作用[8]和疾病治疗关系[9]。构建复杂的生物医学实体搜索工具[10]时,也可以使用BioNER,该工具使用户能够提出复杂的查询来搜索生物实体。

MTL可以利用为不同但相关的任务而收集的不同数据集[23]。
我们建议使用多个模型的协作的CollaboNet。 与仅使用单个静态模型的常规MTL方法不同,CollaboNet由在不同数据集上针对不同任务训练的多个模型组成。 CollaboNet中的每个模型都在标注有特定类型实体的数据集上进行训练,并成为其自身实体类型的专家。
尽管基于MTL的模型获得了很高的召回率,但是这些模型的精度相对较低。 由于基于MTL的模型是在多种类型的实体和较大的训练数据上进行训练的,因此它们具有对各种生物医学实体的更广泛覆盖,这自然会导致较高的召回率。 另一方面,由于MTL模型是针对不同实体类型的组合进行训练的,因此它们往往难以区分实体类型,从而导致精度降低。

为了解决多义词造成的误报问题,CollaboNet汇总了合作者模型的结果,并将其用作目标模型的附加输入。 考虑利用基因和化学模型的输出预测疾病实体VHL的情况。 一旦基因模型将VHL预测为基因,则该基因模型会告知疾病模型VHL是基因实体,因此该疾病模型不会预测VHL为疾病。 在CollaboNet中,每个模型都针对一个实体类型进行单独训练,然后进一步针对其他模型进行了训练,而其他模型则针对其他实体类型进行了训练。 CollaboNet中的模型在训练过程中轮流成为目标模型和协作者模型。 因此,每个模型都是各自领域的专家,并且可以利用其他模型的多域信息来帮助提高准确性。

Methods

  • BIOES scheme.
  • We also use the trained word embeddings provided by Pyysalo et al. [20].

Pyysalo S, Ginter F, Moen H, Salakoski T, Ananiadou S. Distributional semantics resources for biomedical text processing. In: Proceedings of the 5th International Symposium on Languages in Biology and Medicine, Tokyo, Japan; 2013. p. 39–43

  • build character level word embeddings (CLWEs) using a convolution neural network (CNN),Santos and Zadrozny [27].

Santos CD, Zadrozny B. Learning character-level representations for part-of-speech tagging. In: Proceedings of the 31st International Conference on Machine Learning (ICML-14). JMLR.org; 2014. p. 1818–26.

  • Bidirectional LSTM with Conditional Random Field (BiLSTM-CRF)

CollaboNet

具体见图示:

在d的训练阶段Pn中,由BiLSTM层和CRF层组成的目标STM和权重αk{k | k̸= d,k∈D}被训练。 其他STM的参数没有经过训练,但是STM在训练阶段Pn中仅对数据集d生成推论。 例如,当疾病数据集是目标数据集时,其他STM的BiLSTM会得出有关疾病数据集其他实体类型的推论。更具体地说,是关于疾病数据集Mn-1([S; 0])的基因的推论。 它具有丰富的关于基因疾病基因实体的信息,将有益于STM疾病。

发布了241 篇原创文章 · 获赞 6 · 访问量 7248

猜你喜欢

转载自blog.csdn.net/qq_28468707/article/details/103863533
今日推荐