基于深度学习的生物医学命名实体识别(知识点详解)

每天在文献中存储的大量生物信息导致生物医​​学研究人员的信息过载。仅在2016年,MEDLINE(https://www.nlm.nih.gov/bsd/index_stats_comp.html)就引用了869 666次引用,每分钟大于一张纸。理想情况下,可以使用高效,准确的文本挖掘和信息提取工具和方法来帮助从日益增长的原始文本中解锁结构化信息,以用于计算数据分析。文本挖掘已被证明对许多类型的大规模生物医学数据分析有用,例如网络生物学(Al-Aamri 等,2017 ; Zhou 等,2014),基因优先级(Aerts)等。,2006),药物重新定位( Rastegar-Mojarad 等,2015 ; Wang和Zhang,2013)和策划数据库的创建( Li et al。,2015)。生物医学信息提取的一项基本任务是识别生物医学命名实体(生物医学命名实体识别,BNER),如基因和基因产品,疾病和物种。生物医学命名实体具有几个特征,使得它们在文本中的识别特别具有挑战性( Campos 等,2012),包括共享头名词(例如'91和84 kDa蛋白'指'91 kDa蛋白'和'84 kDa蛋白'),每个实体有几种拼写形式(例如'N-乙酰半胱氨酸','N-乙酰基 - 半胱氨酸和'NAcetylCysteine')和模糊缩写(例如'TCF'可以指'T细胞因子'或'组织培养液')。直到最近,最先进的BNER工具依靠手工制作的功能来捕捉不同实体类的特征。这个特征工程过程,即找到最能帮助从其他标记(或其他实体类)中识别特定类型的实体的特征集,会引发广泛的试错过程。除了这个昂贵的流程之外,高质量的BNER工具通常采用特定于实体的模块,例如白名单和黑名单词典,这些都很难建立和维护。在开发BNER工具时,定义这些步骤目前需要花费大部分时间和成本(Leser和Hakenberg,2005)并且导致高度专业化的解决方案,除了它们的设计之外,不能移植到域(甚至实体类型)。然而,最近,基于深度学习和统计字嵌入的域独立方法(称为长短期记忆网络条件随机场(LSTM-CRF))已被证明优于最先进的实体 - 特定的BNER工具(Habibi 等,2017)。然而,基于监督,深度神经网络(DNN)的BNER方法依赖于大量高质量的手动注释数据,这些数据以金标准语料库(GSC)的形式存在。创建GSC是费力的:必须建立注释指南,必须培训领域专家,注释过程耗时且必须解决注释分歧。因此,生物医学领域中的GSC往往很小并且专注于特定的子域。

转移学习旨在使用从“来源”数据集中学习的知识在“目标”数据集上执行任务(Li,2012 ; Pan和Yang,2010 ; Weiss 等,2016)。对于DNN,通常通过使用在源数据集上预训练的DNN的一些或所有学习参数来初始化针对要在目标数据集上训练的第二DNN的训练来实现转移学习。理想情况下,转移学习可以改进模型的泛化,缩短目标数据集的训练时间,并减少获得高性能所需的标记数据量。这个想法已成功应用于许多领域,如语音识别(Wang和Zheng,2015),金融(Stamate等。,2015)和计算机视觉( Oquab 等,2014 ; Yosinski 等,2014 ; Zeiler和Fergus,2013)。尽管其受欢迎,但在自然语言处理(NLP)领域中对基于DNN的模型的转移学习进行的研究很少。例如, Mou 等人。(2016)侧重于使用卷积神经网络(CNN)进行句子分类的转移学习。据我们所知,只有一项研究分析了在NER背景下基于DNN的模型的转移学习( Lee et al。,2017)),并没有研究分析基于DNN的BNER方法的转移学习。

(如果现在大家仍旧对自己的研究方向或者项目实现抱有疑虑或者无从下手,可以加入9年计算机类项目讨论群,群号:457756921)

发布了38 篇原创文章 · 获赞 192 · 访问量 18万+

猜你喜欢

转载自blog.csdn.net/weixin_40651515/article/details/82430630
今日推荐