腾讯、鹏城实验室、北大发布联邦学习论文!AAAI 2020收录

会议之眼前沿领域篇-联邦学习

在上一期中,我们为大家带来了什么是联邦学习,谷歌为你画了部漫画!联邦学习属于相对前沿的研究领域,做好了离发顶会paper也就不远了。这不,北大、鹏城实验室以及腾讯三家强强联手发表了一篇联邦学习论文,用于解决视觉和语言基础问题。该论文目前已被AAAI 2020收录!


文章简介

腾讯、鹏城实验室、北大发布联邦学习论文!AAAI 2020收录

http://web.pkusz.edu.cn/adsp/files/2019/11/AAAI-FenglinL.1027.pdf


最近,大家对诸如图像字幕和视觉问题解答(visual question answering,VQA)有很强的研究兴趣。受到联邦学习的启发,作者提出了一种联邦学习框架aimNet,该框架通过绑定不同的下游视觉和语言任务来提取细粒度的图像表示,同时避免了数据共享。

aimNet介绍

在图像字幕中,系统将图像作为输入,并输出描述。而VQA是一个更具挑战性的问题,需要要求模型根据图像和问题给出答案。深度神经网络在推进图像字幕和VQA的最新技术方面取得了巨大的成功。但大多数现有的基于深度学习的框架都专注于单个任务。如果一起考虑这些问题,则可以共同学习来自不同任务的不同知识,并且很有可能提高每个任务的效能。为了实现这一目标,此前已有研究人员提出了针对视觉和语言基础任务的多任务学习框架。但是,这些方法是在共享所有下游任务数据的条件下进行训练的,这可能会导致数据泄漏。联邦学习的目标是根据分布在多个客户之间的数据集训练高质量的集中式模型,而无需共享客户的数据。受此启发,集中式模型aimNet应运而生,它由一个对齐模块,一个集成模块和一个映射模块组成,如图1所示。

腾讯、鹏城实验室、北大发布联邦学习论文!AAAI 2020收录

扫描二维码关注公众号,回复: 8748568 查看本文章

对齐模块通过对提取的视觉和文本特征进行相互关注来构建对齐的图像表示。所得图像表示形成了对显著图像区域更清晰的语义描述,通过注入更多的语义信息更有利于下游任务。接下来,集成模块着重于通过自我注意机制集成视觉和文本特征,该机制捕获显著区域的分组和属性的搭配,生成对于图像的描述表示。探索的图像空间和关系表示形式为图像字幕任务提供了强大的基础。最后,映射模块由两层非线性层组成,用于将学习到的细粒度图像表示映射到特定任务的特征域。

作者的模块充分利用了图像中的所有有效信息,并将其作为输入传递给解码器,以生成有意义的句子或给出问题的准确答案。在两个图像字幕数据集和一个VQA数据集上进行的实验验证了动机并证实了作者方法的有效性。作者提出了一个联邦学习框架。通过生成细粒度的图像表示,作者的框架在不共享下游任务数据的情况下,改善了各种视觉和语言基础问题的性能。该网络可将提取的视觉和文本特征从图像转换为有效且自动的图像表示。

三种联邦学习设置


横向联邦学习横向联邦学习称为基于样本的联邦学习,适用于数据集共享相同特征空间而持有不同样本的情况。例如,两个不同城市中的两家银行可能具有不同的用户,但是由于它们共享相同的业务,因此它们的特征空间可能是相同的。在作者的应用场景中,作者将两个不同的图像字幕数据集视为两个来自不同用户的银行,因为它们具有相同的“业务”(生成字幕),但具有不同的“用户”(输入图像)。作者在MSCOCO和Flickr30k图像字幕数据集上实现此方案,如图2所示。

腾讯、鹏城实验室、北大发布联邦学习论文!AAAI 2020收录

与横向联邦学习相比,纵向联邦学习是基于功能的学习,适用于以下情况:两个数据集共享相同的用户,但特征空间不同。例如,考虑同一城市中的两家不同的公司,一家是银行,另一家是保险公司。他们的用户集可能包含该区域的大多数居民,因此他们的用户空间的交集可能很大。但是,由于两家公司的业务大不相同,因此它们的功能空间可能会完全不同。同样,在应用此案例时,作者将两个不同的下游任务视为两个不同的公司,使用相同的“用户”(输入图像)。如图3所示,作者选择MSCOCO图像字幕数据集和VQAv2.0数据集来实现该方案。 原因是收集了VQAv2.0数据集中的大多数输入图像来自MSCOCO数据集。

腾讯、鹏城实验室、北大发布联邦学习论文!AAAI 2020收录

联邦迁移学习适用于两个数据集不仅在样本上而且在特征空间上都不同的情况。 例如一家银行位于美国,一家保险公司位于欧洲。 由于地理限制和业务差异,两家公司的用户和特征空间之间的交集将很小。 为了模拟上述情况,作者将Flickr30k数据集上的图像字幕任务和VQAv2.0数据集上的VQA任务分别视为银行和保险公司。

腾讯、鹏城实验室、北大发布联邦学习论文!AAAI 2020收录

评估数据集和指标

作者评估了图像字幕和VQA的框架。在图像字幕中,作者在公开的MSCOCO图像字幕数据集和Flickr30k图像字幕数据集上进行了评估。数据集分别包含123,287张图像和31,783张图像,每个图像配对有5个句子。为了进行公平的比较,作者使用了广泛使用的拆分方法报告了结果。MSCOCO的验证集和测试集中各有5,000张图像,而Flickr30k则有1,000张图像。

作者借助MSCOCO字幕评估工具包进行结果评估,其中包括四个评估指标:SPICE,CIDEr,METEOR和BLEU。SPICE和CIDEr分别是基于场景图匹配和n-gram匹配的用于评估图像字幕系统的指标。

对于VQA的评估,使用了了VQAv2.0数据集,该图像是从MSCOCO数据集收集的。VQA2.0数据集被分为训练,验证和测试标准集。训练,验证和测试集中分别有82,783、40,504和81,434张图像,对应的问题分别是443,757、214,354和447,793。这些问题分为三种类型,即是/否,数字和其他。每个问题都附带有10个答案。频率最高的答案被视为正确答案。与BUTD和BAN两个模型进行比较。前者是2017年VQA挑战赛的获胜者,后者是应用在VQAv2.0的最新技术。同时作者已经避免了在测试集中找到任何训练集的数据。报告的准确性是通过标准VQA指标计算得出的。

实验结果


横向联邦学习如上所述,作者在MSCOCO和Flickr30k图像字幕数据集上进行了横向联邦学习设置的实验,结果如表1所示。

腾讯、鹏城实验室、北大发布联邦学习论文!AAAI 2020收录

B-4,M,C和S分别是BLEU-4,METEOR,CIDEr和SPICE的缩写。所有值均以百分比(%)报告。横向联邦学习(HFL)提高了所有指标的基线。

腾讯、鹏城实验室、北大发布联邦学习论文!AAAI 2020收录

在纵向联邦学习设置中,作者使用大多数相同的输入图像对两个不同的下游任务进行实验,如表2所示。

腾讯、鹏城实验室、北大发布联邦学习论文!AAAI 2020收录

在SPICE的图像字幕和VQA精度方面,最显着的改进分别达到了6%和3%,这证明了作者方法的有效性。纵向联邦学习允许共享大多数输入图像,这直接帮助模型学习相同图像的更多知识。

联邦迁移学习的结果如表3所示。

腾讯、鹏城实验室、北大发布联邦学习论文!AAAI 2020收录

作者的方法仍可以在联邦迁移学习设置下改进强基线,证明所提出框架的有效性和泛化能力。此外,表3显示了与表1类似的现象,即联邦学习框架对于较小的数据集有利。作者又进一步将自己的模型与多任务学习框架DCN进行了比较,结果表明相比DCN,aimNet的整体精度提高了0.8%)。

总之,无论下游任务表现如何,作者的框架都能成功地提升所有指标基线。在图像字幕方面,就CIDEr和SPICE而言,分别提高了14%和13%。在VQA中,总体上可提高3%。这些结果证明作者的框架可以很好地适应不同的任务,并表明其在学习视觉和语言基础任务的细粒度图像表示方面的有效性。

直观分析

在图5中,作者列出了一些直观的示例来显示模型之间的差异。可以看到,对齐模块学会了扩展其对特定对象的关注并寻找相关属性,这有助于图像字幕基线模型生成在属性和颜色上更详细的字幕。对齐模块还帮助VQA基线模型更准确地回答问题,例如属于“其他”类别的“什么”和“哪里”对象。整合模块生成的答案更加准确,尤其是在回答“数字”类别时。完全模式有助于基线保持良好的平衡,通过包含更多的对象和详细的属性等信息(例如数量和颜色),图像字幕模型可以生成质量最高的字幕。

腾讯、鹏城实验室、北大发布联邦学习论文!AAAI 2020收录

在表4中,作者进行了消融分析,以研究aimNet中每个组件的贡献。从表中可以看出,与集成模块相比,对齐模块可以在VQA上实现更大的改进。

腾讯、鹏城实验室、北大发布联邦学习论文!AAAI 2020收录

这可以在图6中进行说明,因为由对齐模块学习的基于语义的图像表示比由集成模块学习的基于方面的特征更具信息性。但是,在图像字幕任务中,集成模块相比对齐模块可以带来更多的分数增长,这是由于:集成模块更善于探索视觉和文本关系,从而使图像字幕解码器生成更全面的图像和准确的字幕。

腾讯、鹏城实验室、北大发布联邦学习论文!AAAI 2020收录

在作者的aimNet中,所有组件都可以输出细粒度的图像表示。它们的优点被统一以产生丰富的图像信息,通过这样做,作者可以实现对图像的深入理解。

发布了42 篇原创文章 · 获赞 2 · 访问量 5557

猜你喜欢

转载自blog.csdn.net/ConferenceEye/article/details/103908664