知识图谱自动构建技术

先附上部分参考链接：

其它的我暂时没找到，有看到的小伙伴可以留言，感谢~~

这块内容比较零散，不做系统介绍。

技术细节介绍

想要整理一下相关技术方案设计的技术

将训练集划分成多个具有分类标签的多实例包（bag），每个包含有若干个实例（instance）。多示例学习通过对包中实例的学习，训练出一个能够对包进行分类的分类器，并将该分类器应用于对未知标签的多示例包的预测。

多示例学习训练过程中，如何从包中选择正实例用于关系分类，主要有三种思想：

①基于“至少一个”假设，即假设包中至少有一个句子实例可以代表实体对之间的关系，这时任务目标就是训练一个分类器，将包中最有可能代表实体间关系的句子作为输入，对关系进行分类。这种思想就是PCNN-One模型采用的方法。

② 基于注意力机制，使用一个能代表实体间关系的向量和包中的句子实例求相似度，得到一个权重参数，对不同的实例分配以不同的权重再求和，通过注意力的方式减小噪声数据的影响。这种思想是PCNN-ATT模型采用的方法。

③使用强化学习的方式，进行去噪，筛选出正实例进行关系分类。

貌似是做多示例学习关系抽取的模型，没细看，感觉还是要看论文才比较实在~

Neural Snowball for Few-Shot Relation Learning
清华腾讯出品，19年的，few shot的一篇论文，用来做关系抽取

涉及很多图的东西

Simple-Lexicon和FLAT是20年最新的论文，效果相对较好，Simple-Lexicon实现起来比较简单。

注意，这里是词汇增强，不是数据增强，逻辑上是讲分词信息加入到模型输入里，知道模型得到更好的NER效果。

其实之前CRF方法尝试过，单字的模型比分词为token的模型效果好一些，同时在单字的基础上加上了分词的结果作为特征。另外也有很多模型输入会对词性进行编码加入到输入中，但是相对来说分类等任务效果不大，NER影响比较大一些。单字模型虽然效果较好，但是实际应用中会存在一些抽取实体边界错误问题。