本周AI热点回顾:一行代码提升训练速度、PyTorch核心技术涉嫌抄袭、bAbI又被屠榜...

01

180所高校获批新增人工智能专业

3 月 3 日,教育部官方网站更新了「关于公布 2019 年度普通高等学校本科专业备案和审批结果的通知」。各高校新增备案专业 1672 个、审批专业 181 个(含 130 个国家控制布点专业和 51 个目录外新专业),调整学位授予门类或修业年限专业 47 个,撤销专业 367 个。

其中,新增人工智能专业的高校达到了 180 所,也是本次新增备案专业数量较多的学科。新增数据科学与大数据技术专业的学校也占到了 100 多所;智能制造、机器人工程、智能科学与技术等专业也都有数十所学校通过审批。

2018 年 4 月,教育部印发《高等学校人工智能创新行动计划》,这份文件指出,到 2020 年,国内应基本完成适应新一代人工智能发展的高校科技创新体系和学科体系的优化布局。到 2030 年,高校成为建设世界主要人工智能创新中心的核心力量和引领新一代人工智能发展的人才高地,为我国跻身创新型国家前列提供科技支撑和人才保障。

2019 年 3 月,教育部批准 35 所高校新增「人工智能」本科专业,是人工智能本科专业在国内第一次大规模获批。

人工智能是典型的交叉学科,涉及数学、计算机科学、逻辑学、语言学等不同领域的知识,未必每个学校都有足够的师资支撑起这样一个专业的系统培养。而且,人工智能可能是一个非常「烧脑」的专业。以南京大学为例,该校的人工智能专业特别注重培养学生的数学基础,课表包含高等代数、数学分析、离散数学等诸多数学基础专业。该校人工智能学院院长周志华教授曾在采访中表示,人工智能面临的问题千变万化,解决问题涉及到多种数学工具,高水平人才必须有好的数学基础。

信息来源:机器之心

02

一行代码让训练速度提升2倍,飞桨发布自动混合精度技术

随着生活节奏的加快,「等待」已经越来越成为人们希望远离的事情。但是在深度学习领域,模型的参数、数据集的规模等等动辄就是以亿为单位,甚至更大,因此当模型训练成功之时,放一首张靓颖的「终于等到你」作为背景音乐实在是太应景了。

那如果现在向你推荐一款神器,可以实现训练速度翻倍,访存效率翻倍,你心动吗?心动不如行动(这可不是电视直销,别着急换频道),来和我一起看看这款神器——基于飞桨核心框架的自动混合精度(Automatic Mixed Precision) 技术,简称飞桨 AMP 技术。

飞桨 AMP 技术仅仅通过一行代码即可帮助用户简便快速的将单精度训练的模型修改为自动混合精度训练。同时通过黑白名单和动态 Loss Scaling 来保证训练的稳定性,避免出现 INF 或者 NAN 问题。飞桨 AMP 可以充分发挥新一代 NVIDIA GPU 中 Tensor Core 的计算性能优势,ResNet50、Transformer 等模型的训练速度与单精度训练相比可以提升到 1.5~2.9 倍。

自动混合精度是一种自动将半精度和单精度混合使用,从而加速模型训练的技术。其中单精度(Float Precision32,FP32)好理解,是计算机常用的一种数据类型。那么半精度是什么呢?如图 1 所示,半精度(Float Precision16,FP16)是一种相对较新的浮点类型,在计算机中使用 2 字节(16 位)存储,在 IEEE 754-2008 中,它被称作 binary16。与计算中常用的单精度和双精度类型相比,Float16 更适于在精度要求不高的场景中使用。

半精度和单精度数据示意图

不言而喻,在深度学习领域,如果使用 Float16 代替 Float32 来存储数据,那么开发者就可以训练更大更复杂的模型,使用更大的 batch size。因此对于那些恨不得挖掘出 GPU 里每一个晶体管全部潜力的科学家们怎么能放过它呢?同时由于 NVIDIA 推出了具备 Tensor Core 技术的 Volta 及 Turing 架构 GPU,使半精度计算趋向成熟。在相同的 GPU 硬件上,Tensor Core 的半精度计算吞吐量是单精度的 8 倍。

信息来源:飞桨PaddlePaddle

03

PyTorch核心加速技术涉嫌抄袭,MIT教授将Facebook告上法庭

近日,一份起诉书成为了深度学习社区的热点话题:Facebook 从创业公司 Neural Magic 挖来的技术人员 Zlateski 重现了今天 PyTorch 上的关键神经网络加速技术并将其开源。因为这件事,Facebook 被告上了麻省法庭。

在科技巨头面前,创业公司的保密协议和竞业协议能否发挥应有的效力?

据外媒报道,在波士顿(马萨诸塞州)地方法院,由 MIT 研究科学家 Alex Matveev 博士和 MIT 电气工程与计算机科学教授 Nir Shavit 共同创立的 AI 公司 Neural Magic 对其前技术总监 Aleksandar Zlateski 和 Facebook 提起了诉讼。

Neural Magic 起诉前员工 Zlateski 违反了保密协议和竞业禁止协议,而 Facebook 靠着挖角 Zlateski,窃取和公开了属于 Neural Magic 核心技术与知识产权的「专有算法」。Neural Magic 是 MIT 教授 Nir Shavit 和 MIT 研究科学家 Alex Matveev 在 2017 年合伙创办的公司,地址位于马萨诸塞州的萨默维尔市。Neural Magic 的核心技术之一就是方才提到的算法,该算法可使得计算机在不配备专用硬件的前提下,就能运行复杂的数学函数,并使用更大规模的数据集。

Zlateski 是 Shavit 教授手下的一名博士后,也是第一位加入创业公司 Neural Magic 的员工,年薪 16.5 万美元,担任技术总监职位。Zlateski 能够获取公司的所有商业秘密、机密信息、专有信息和未来的商业计划。Zlateski 也是创建软件以及封装 Neural Magic 专有算法的编译器源代码的重要人物。

2019 年 7 月,Zlateski 从 Neural Magic 离职,随后加入 Facebook,并保证新工作的内容与原公司无关。Neural Magic 选择信任 Zlateski——基于他此前和公司签订的保密协议和竞业协议。

但是,2019 年 11 月,Facebook 在 GitHub 上发布并开源了包含 Neural Magic「专有算法」的编译器。此外,Neural Magic 在诉讼中提到,在编译器算法的发行公告中,Facebook 甚至对 Zlateski 在解决算法关键难题中发挥的重要作用公开表示感谢:「团队认可并高度赞扬 Zlateski 在稀疏内核和统一代码缓存方面所做的贡献。」这家公司去年 11 月从 Comcast Ventures、NEA、Andreessen Horowitz、Pillar VC、 Amdocs 等投资机构筹集了 2000 万美元,解决方案正在出售给英伟达、AMD、华硕等企业。

信息来源:机器之心

04

bAbI又被屠榜?DeepMind新模型模仿人脑推理!

人工智能是否能够捕捉到推理的本质,也就是说,分布在多个事实或记忆中的元素之间的距离关系?Alphabet 的子公司 DeepMind 在 arXiv. org 上发表了一项研究,该研究提出了一种能够进行长距离推理的架构—— MEMO。 

研究人员表示,MEMO 的两个新颖组件——第一个组件将事实和存储在外部存储器中的记忆分离,第二个组件采用了一种检索系统,在决定一个答案之前允许不同数量的“记忆跳数”,使它能够解决新颖的推理任务。

在我们的日常生活中,我们需要做出一些判断,这些判断需要将那些不是一次经历的事实联系起来,而且是在不同时间点的经历中获得的。有趣的是,已经证明海马体通过一种叫做模式分离的过程来独立地存储记忆。海马区记忆保持分离的原因是为了尽量减少经验之间的干扰,这使得我们能够以“情景性”记忆的形式回忆特定的事件。

这种分离与上面提到的海马体在概括过程中的作用相冲突,也就是说,分离的记忆如何才能链接在一起?有趣的是,最近的一项研究表明,分离经验的整合是通过一种循环机制,在检索点处允许多种模式独立地进行编码交互,因此支持推理。依靠这些发现,来研究如何改进神经网络模型以增强神经网络中的推理。

这是对现有记忆架构的扩展,在这些推理任务中有了期望的结果。MEMO展示了一项新任务——配对联想推理——的最新成果,在这个任务和一个具有挑战性的图遍历任务中,MEMO是解决长序列的惟一架构。

此外,MEMO能够解决bAbI数据集的20个任务,具备了目前最先进的性能,而这种灵活加权是通过将记忆中单个事实的独立存储与强大的注意机制相结合来实现的。

信息来源:新智元

04

吊打BERT Large的小型预训练模型ELECTRA终于开源

ELECTRA的全称是Efficiently Learning an Encoder that Classifies Token Replacements Accurately,以1/4的算力就达到了RoBERTa的效果。模型结构如下:

Generator和Discriminator可以看作两个BERT,生成器的任务是MLM,判别器的任务是Replaced Token Detection,判断哪个字被替换过。

但上述结构有个问题,输入句子经过生成器,输出改写过的句子,因为句子的字词是离散的,所以梯度在这里就断了,判别器的梯度无法传给生成器,于是生成器的训练目标还是MLM(作者在后文也验证了这种方法更好),判别器的目标是序列标注(判断每个token是真是假),两者同时训练,但判别器的梯度不会传给生成器,目标函数如下:

因为判别器的任务相对来说容易些,RTD loss相对MLM loss会很小,因此加上一个系数,作者训练时使用了50。

另外要注意的一点是,在优化判别器时计算了所有token上的loss,而以往计算BERT的MLM loss时会忽略没被mask的token。作者在后来的实验中也验证了在所有token上进行loss计算会提升效率和效果。

论文下载链接:https://www.lanzous.com/ia70caj

信息来源:夕小瑶的卖萌屋

06

本周论文推荐

【百度研究院】Distributed Hierarchical GPU Parameter Server for Massive Scale Deep Learning Ads Systems(大规模深度学习广告系统的分布式分层GPU参数服务器)

作者:Weijie Zhao, Deping Xie, Ronglai Jia, Yulei Qian, Ruiquan Ding, Mingming Sun, Ping Li

论文介绍广告系统的神经网络通常从多种资源中获取输入,如查询广告相关性、广告特征和用户画像。这些输入被编码成一个或多位热的二进制特性,通常每个示例只有一小部分非零的特性值。在线广告行业的深度学习模型可能有TB级的参数,这些参数既不适合GPU内存,也不适合计算节点上的CPU主内存。例如,一个赞助的在线广告系统可以包含超过10^11个稀疏特征,使得神经网络成为一个大约有10tb参数的大型模型。本文介绍了一种用于大规模深度学习ADS系统的分布式GPU分级参数服务器,提出了一种利用GPU高带宽内存、CPU主存和SSD作为三层分层存储的分层工作流。所有的神经网络训练计算都包含在GPU中。对真实数据的大量实验证实了该系统的有效性和可扩展性。在MPI集群中,一个4节点的层次化GPU参数服务器可以比内存中150节点的分布式参数服务器多训练2倍以上的模型。此系统的性价比是MPI-cluster解决方案的4-9倍。

论文地址

https://arxiv.org/abs/2003.05622

发布了456 篇原创文章 · 获赞 56 · 访问量 15万+

猜你喜欢

转载自blog.csdn.net/PaddlePaddle/article/details/104890219