知识图谱自动构建技术

最近看到CCKS2020基于本体的金融知识图谱自动化构建技术 相关技术方案。

先附上部分参考链接:

第五名方法总结

其它的我暂时没找到,有看到的小伙伴可以留言,感谢~~

这块内容比较零散,不做系统介绍。

技术细节介绍

想要整理一下相关技术方案设计的技术

1. 多示例学习

多示例学习(Multiple Instance Learning)

多示例学习 Multi-Instance Learning

将训练集划分成多个具有分类标签的多实例包(bag),每个包含有若干个实例(instance)。多示例学习通过对包中实例的学习,训练出一个能够对包进行分类的分类器,并将该分类器应用于对未知标签的多示例包的预测。

多示例学习训练过程中,如何从包中选择正实例用于关系分类,主要有三种思想:

①基于“至少一个”假设,即假设包中至少有一个句子实例可以代表实体对之间的关系,这时任务目标就是训练一个分类器,将包中最有可能代表实体间关系的句子作为输入,对关系进行分类。这种思想就是PCNN-One模型采用的方法。

② 基于注意力机制,使用一个能代表实体间关系的向量和包中的句子实例求相似度,得到一个权重参数,对不同的实例分配以不同的权重再求和,通过注意力的方式减小噪声数据的影响。这种思想是PCNN-ATT模型采用的方法。

③使用强化学习的方式,进行去噪,筛选出正实例进行关系分类。

2. PCNN

pcnn关系抽取论文阅读总结:尽量细节表现出来

知识图谱关系抽取之PCNN——tensorflow实现

貌似是做多示例学习关系抽取的模型,没细看,感觉还是要看论文才比较实在~ 

3. Snowball

Neural Snowball for Few-Shot Relation Learning
清华 腾讯出品,19年的,few shot的一篇论文,用来做关系抽取

4. 文档级关系抽取

文档级关系抽取方法总结

涉及很多图的东西

5. NER中的词汇增强

NER中的词汇增强方法(LatticeLSTM、CGN、FLAT、Simple-Lexicon)

Simple-Lexicon和FLAT是20年最新的论文,效果相对较好,Simple-Lexicon实现起来比较简单。

注意,这里是词汇增强,不是数据增强,逻辑上是讲分词信息加入到模型输入里,知道模型得到更好的NER效果。

其实之前CRF方法尝试过,单字的模型比分词为token的模型效果好一些,同时在单字的基础上加上了分词的结果作为特征。另外也有很多模型输入会对词性进行编码加入到输入中,但是相对来说分类等任务效果不大,NER影响比较大一些。单字模型虽然效果较好,但是实际应用中会存在一些抽取实体边界错误问题。

猜你喜欢

转载自blog.csdn.net/katrina1rani/article/details/112528704