多数据集连接问题的探索

近期,浙江大学欧明锋在TechBeat人工智能社区进行了“以数据为中心的研究探索”的分享。分享内容来源于在格物钛实习期间,与科学顾问赵俊博、CEO崔运凯、算法负责人薛林继合作完成的论文《Joining datasets via data augmentation in the label space for neural networks》。论文基于格物钛Open dataset数据集研究,成功被2021机器学习顶会ICML收录。 Talk主要聚焦同领域相似的同构数据集的连接融合问题,并提出解决思路与方案。

以下是文章分享:

以数据为中心的研究探索

一、研究背景

迄今为⽌,深度学习最流⾏的范式是端到端学习范式。该范式如图1所示,其中对于步骤⼀,在现实世界的应⽤中,同⼀任务下通常有多个可选的数据集,我们往往⼀次仅选择其中的⼀个通过各种⽅法进⾏模型训练。这不仅浪费了其他的数据集,也同时给模型带来局限,因为数据的质量和数量对于深度学习模型的泛化能⼒是有着⾄关重要的影响。基于该点,我们思考着:为什么要仅使⽤⼀个数据集来训练神经⽹络?为什么不能让多个数据集同时work?

1.jpg图1,端到端学习范式

针对上述的问题,那势必要进⾏数据集的融合,融合⼜可以分为两种: 1、在数据集标签⼀致的情况下可以进⾏直接融合,即相同标签下的样本直接融合。 2、标签不⼀致的情况下,⽬前的⽅案基本都是在隐藏向量空间进⾏混合,如迁移学习,它有很多优点,包括能有效地进⾏相关领域知识的迁移与融合应⽤,并⼤量减少下游任务的数据量,训练成本等。但还是存在⼀定的缺陷,如由于是在隐藏层混合的,导致可解释性较弱,且没有利⽤上数据集之间关联的语义信息。

2.jpg

3.jpg图2,数据集的直接与间接融合

这时候我们就会想到,当标签不统⼀时,是否也能在标签空间中进⾏直接融合?

⽽本⽂就是从该问题出发,从数据集的标签语义信息⻆度提出了解决思路,即相似数据集的标签往往在领域知识内是有语义关联的,所以它们是可以通过图谱的⽅式连接起来。具体⽽⾔,如图3中这个例⼦所示,最左边三个关于动物领域的相似数据集,由于其标签粒度存在层次或者粒度差异⽆法进⾏直接融合,但通过对其标签集建⽴图谱后,三个数据集就能被联系起来。

图3.jpg图3,通过标签图谱进⾏数据集连接

顺着上述的思路,本⽂从最基础的单标签分类任务⼊⼿,提出了⼀套框架来实现基于标签图在标签空间中进⾏数据集连接。具体⽽⾔就如图4所示,其中上半部分就是三个相似的单标签数据集,但它们标签存在差异⽆法直接融合,因此每个数据集都对应⼀个单标签模型的训练;下半部分就是我们提出的⽅案,把三个数据集融合在⼀块同时⽤于⼀个模型的训练,预测的时候从单标签预测变成了以标签节点为终点的路径预测。为了帮助理解,我们将图3中三个数据集连接前后的ground truth标签对⽐列在了表1中。

图4.jpg图4,传统单标签预测模型与本⽂的基于图谱的路径预测模型

表1.jpg表1,数据集连接前后的标签变化

本⽂⼯作的贡献包括:

· 提出了⼀种基于标签空间直接连接数据集的新范式;

· 开发出了⼀种新的训练算法概念,在图像和⽂本分类上的实验结果证明了该范式的有效性; 

· 与传统的端到端范式相⽐,本⽂的⽅法增强了可解释性和因果可追溯性。

二、方法概括

图谱构建:

意义.jpg 为了更好地理解这个构建过程,我们以宠物分类为例,假设有两个数据集A和B分别是猫狗⼆分类数据集和猫狗的细粒度品种分类数据集。接下来通过以下四个步骤来构建(其中局部的⼦图谱就如图5所示):

(1)  找到这些标签在分类学⻆度上的最近公共祖先animal,并将作为根节点添加到空图中。

(2)  按分类学⻆度从上⾄下,我们选择了最相近的标签猫狗作为根节点下的两个相邻节点,

(3)  重复步骤2,再继续按分类学的⻆度向下延伸,查阅相关资料,确定三种可⽤于狗分类的主要特征,包括⽑发类型、⽿朵形状和尾巴形状,并列出这三种类型的具体特征:①短⽑,⻓⽑;②垂⽿,直⽴⽿,玫瑰⽿;③短尾,细⻓尾,卷曲尾,⻓宽尾。对于猫也是同理,列出⽑发类型和⽑⾊模式的具体特征:①⻓⽑,短⽑; ② 纯⾊,重点⾊,⻁斑⾊。所有这些特征都被视为增强节点添加到图中。

(4)  将每个标签节点连接到相关联的特定特征节点(即增强节点),并将根节点连接到增强节点。

图5.jpg图5,图谱构建的例⼦(局部图谱)

竞争节点:为了更好地捕捉标签图上同⼀层级节点间的关系,我们定义了竞争节点

呱呱.jpg 因为对于⼀般Softmax,所有类别都在相互竞争。但是在我们的体系结构中,竞争关系仅存在于竞争节点之间。Softmax和Block-Softmax的对⽐如图6所示。

图6.jpg图6,Softmax与Block-Softmax对比

确定性路径:为了处理类别具有确定性特征的情况,我们定义了确定性路径

图7.jpg图7,该图中的唯一一条确定性路径被标记为红色,即 Animal->Cat->Shorthair- >British_Shorthair

对于确定性路径的训练,我们采用了Teacher Forcing的训练策略,即我们将每条ground truth路径视为一个序列,将该序列喂入循环单元,让编码器自回归地预测序列上的每个token(即节点)。该流程如下图所示,对于确定性路径P,将P上的所有节点都经过同样的步骤后,就能得到如下的损失函数从而反向传播并优化:

图8.jpg图8,确定性路径的训练流程

不确定性路径:为了处理类别具有⾮确定性特征的情况,我们定义了⾮确定性路径

图9.jpg图9,该图中从Animal 到 British_Shorthair 的三条⾮确定性路径被标记为红⾊

七七c109.jpg

整体模型结构:

我们依照Encoder-Deocder框架设计了整体结构。其中对于Encoder,图像分类任务中使⽤EfficientNet-b4,⽽⽂本分类任务使⽤Bert或LSTM作为特征提取器,对于Decoder统⼀使⽤了GRU。

图10.jpg图10,图像分类任务重模型的整体结构

三、实验

数据集设定:

表2.jpg表2,数据集统计信息(K表示类的数量)

三圈.jpg图11,Group1中两个原始数据集的数据分布(左Oxford-IIIT Pet,右Dog vs. Cat),该可视化图来⾃Graviti的Open Dataset。

两大圈.jpg图12,Group2中两个原始数据集的数据分布(左102 Category Flower,右17 Category Flower),该可视化图来⾃Graviti的OpenDataset。

本文设定了三组数据集用于实验,其数据集统计信息如表2、图11与图12所示。组1和组3对应的是细粒度与粗粒度数据集的融合,且数据集的标签之间完全没有交集;组2对应同粒度数据集的融合,且二者标签之间交集大小为8。另外要说明的是,我们的测试都是在难度更大的细粒度数据集上进行。

其中要说明的是文本所用的图像数据集均来自格物钛的公开数据集社区,并使用格物钛数据平台进行高效简便的连接与读取:

官网.jpg

代码1.jpg

代码2.jpg

代码3.jpg

代码4.jpg

基准线设置:关于基准线的设置,对于图像分类任务,我们设置了三种

  1.   Efficientnet-b4+FFN,传统单标签分类的模型。

  2.    Efficientnet-b4+Pseudo Labels,基于伪标签进⾏训练集的数据融合,即对粗数据集中的样本⽣成细粒度的伪标签,并将这些带伪标签的样本融合进细粒度数据集中。

  3.    Efficientnet-b4+Label Set,基于多标签分类的模型,即将样本对应的ground truth路径上的节点标签作为其ground truth 的多标签。

对于⽂本分类任务我们设置了⼀种:即传统的单标签分类模型

实验结果:

表3.jpg表3,图像分类结果,衡量指标Accuracy

这些结果是在细粒度数据集的测试集上获得的。(“X”表示该设置不能直接用于所考虑的模型,而“-”表示实验优先级较低,所以文本省略了)。

表4.jpg表4,文本分类结果,衡量指标F1 score

本⽂的主要实验结果如表3和表4所示,从中可以看出:

i )   即使没有额外数据集的帮助,简单地将标签扩展为标签关系图,再加上本⽂的训练策略,表现仍然会有所提升。

ii )  使⽤本⽂所提出的⽅法要优于基准线,说明了我们的⽅法在标签空间进⾏数据集融合的可⾏性。

可解释性分析,与⿊盒的端到端系统融合⽅式相⽐,我们在实验中发现我们的框架是具有较强的可解释性,因为当执⾏推理过程时,标签关系图其实为分类模型提供了⼀个 “决策过程” 。下图中的左图绘制了三个增强节点(Tabby-Color,Point-Color和Solid-Color)以及⼀些相应的图像,右图是每⾏样本对应的路径,结合这两幅图我们可以看出,模型能够通过具有确定性路径的样本学习到增强节点的特征并应⽤在不确定性路径样本的推理上。具体以波斯猫(Persian)为例,红⾊虚线框内的是波斯猫,波斯猫是有重点⾊和纯⾊的,所以其⽑⾊是不确定的,⽽模型能够通过在具有确定性的重点⾊和纯⾊的猫类样本学习到重点⾊和纯⾊的特征,从⽽对波斯猫中不同⽑⾊的样本进⾏区分。

图13.jpg图13,可解释性结果示例图

对于每⼀⾏的测试图像,模型推理过程中经过了最左边列出的增强节点。其中左图蓝⾊矩形框内的样本(对应右图中蓝⾊椭圆)的预测是在确定性路径上完成的,⽽左图绿⾊矩形内的样本(对应右图中绿⾊椭圆)是在不确定性路径上完成的。

四、总结

本⽂研究了标签系统的差异时的数据集连接的问题。本⽂提出了⼀个新的框架来解决这个问题,包括标签空间扩充、递归神经⽹络、序列训练和策略梯度。 在图像和⽂本分类上的实验证明了本⽂的⽅法在性能提升和可解释性⽅⾯都有良好的效果。此外,本⽂还倾向于将该项⼯作定位为整合丰富的领域知识(标签图谱)以促进连接主义(如神经⽹络分类器)的初步尝试。最后,希望该项⼯作能够推动针对不同任务的多数据集融合的研究。

点击访问格物钛官网,预约演示,即刻体验格物钛数据平台,直击你的AI开发数据需求。

格物钛——直击你的AI开发数据需求

おすすめ

転載: juejin.im/post/7032124102617858084