HENYA系统论文解读

作者从五大类开始,这五大类是人物,位置,组织,时间和艺术品。在这五大类下,每一大类细分为100个小类。所以HENYA系统共有505种实体类型。小类的甄选取决于其热度,作者按属于每一类的在YAGO中实体数量进行排序,取前一百种实体。这505种实体构成了一个有向无环图,最深的地方有9层。

作者发文时,还没有这种分类方法,HENYA可以加入其他种分类,如从DBpedia和FreeBase的FIGER系统或者其他手工标注的资料(WordNet)。

特征集

作者只使用了自动从文本中获取的特征,没有使用任何手工标记的特征。

包括提及字符串

提及周围的的字符串

提及段落

语法特征

位置特征

分类器

多级分类器

作者根据YAGO定义的实体自动从WIKI获得训练数据。

每个WIKI中的提及及其上下文都被当作正实例。为了判别学习,当前类型的同属的其他类型都被当作负实例。作者给每一个非叶实体加了一个子类,others,others的实例是类型t的不属于其他任何类的实例。

HENYA的分类是从上到下的方式,如果某一类型不被分类信号接受,则它的分类就停在这一级了。

元分类器

HENYA使用全局阈值接收一个类。使用一个参数对所有类型显然不合适,因为不同的类有不同的特征,可能最优的阈值有高类型依赖性。为了克服这个限制,作者制作了一个元分类器,它通过降低置信度进行排序,以获得正确的top-n标签。我们利用特定类型分类器集合的置信度值作为元特征,训练多类Logistic回归分类器,得到合适的特征值n。我们将基分类器和元分类器结合起来,首先沿类型层次运行整个集成自上而下的分类器,然后让元模型决定我们接受多少个得分最高的类型。

猜你喜欢

转载自blog.csdn.net/weixin_39773661/article/details/81126879