本周AI热点回顾:GPT-3开始探索付费使用;这个视频「橡皮擦」让你瞬间消失;英伟达最强消费级显卡RTX 3090出炉...

点击左上方蓝字关注我们

01

服贸会来了!百度飞桨发布最新成果,获“科技创新服务示范案例”

这周末要被“黑科技”十足的服贸会承包了!今年服贸会以“科技办会”的理念,展示了人工智能、5G、增强现实和虚拟现实等最新的科技成果。本次服贸会共有148个国家和地区的1.8万家企业和机构、10万人报名参展参会,也是疫情发生以来,我国举办的第一场重大国际经贸活动,为全球经济和全球贸易复苏注入了一针“强心剂”。

9月5日,百度参加了2020年中国国际服务贸易交易会,在数字贸易发展趋势和前沿高峰论坛中,百度 CTO 王海峰出席并发表主题演讲,他表示:“作为人工智能平台型公司,百度将持续加大在人工智能等前沿领域的技术研发与落地实践,进一步携手服务业等产业发展新业态、新模式,加强在国际贸易中的竞争力与吸引力,有效带动国内国际经济发展的‘双循环’、助力中国经济实现高质量发展的同时,为推动世界经济复苏贡献力量。”

此外,百度多项核心 AI 内容也在会中备受瞩目。飞桨和 Apollo 智能车联带来最新成果发布,飞桨入选“科技创新示范案例”,百度还在信息服务、文化服务、北京新视听3大展区设置了超200平米的综合展台……

此次服贸会吸引了1.8万家境内外企业及机构前来参展,更以“科技办会”的理念,展示了人工智能、5G、增强现实和虚拟现实等“硬核”科技力量。在服贸会成果发布中,百度等企业展示了最新的人工智能技术,秀出了中国数字贸易交流的重要名片。现场,百度深度学习技术平台部高级总监马艳军分享了飞桨的实践成果与最新进展。他表示,“深度学习平台是人工智能核心的基础平台,绝大多数人工智能应用都是基于深度学习平台所开发的,而飞桨正是这样的平台,也是国内最早开源开放、服务开发者数量最多的深度学习平台。”

此外,飞桨作为百度自主研发,国内首个开源开放、技术领先、功能完备的产业级深度学习平台,经过层层筛选,从众多优秀案例中脱颖而出,被评为“科技创新服务示范案例”。“科技创新示范案例”属于服贸会组委会开展“服务示范案例”遴选活动的其中之一,旨在通过自主研发,创造性地将新知识、新技术应用于各类服务领域,切实推动产业升级与发展的创新案例。这与百度飞桨持续为开发者、企业提供创新技术、模型和产品等的初衷不谋而合,它作为人工智能产业的基础平台,更能有效促进数字贸易。

飞桨能支持不同领域的应用需求,是百度深厚的 AI 技术积累所促成的。飞桨以百度多年的深度学习技术研究和业务应用为基础,具有开发便捷的深度学习框架、支持超大规模深度学习模型训练、多端多平台部署的高性能推理引擎和产业级开源模型库四大领先技术。基于百度领先的 AI 实力,飞桨拥有大量业界领先的技术创新,在深度学习模型开发、训练、预测和部署等方面,飞桨已可比肩 TensorFlow、PyTorch 等国际主流框架。

当下,中国已成为世界上最具创新力的国家之一,服贸会搭建了展示中国前沿技术成果的平台,为创新发展、产业优化升级带来机遇。百度飞桨作为百度 AI 新型基础设施的重要一环,持续进行领先技术研发、产业智能化推进、产业生态建设、人才培养,正在成为中国科技创新的基础底座之一,更是中国在全球服务贸易交流中的“新名片”。

信息来源:百家号

02

性能翻倍,英伟达最强消费级显卡RTX  3090出炉:半价买泰坦

本周,同样是在自家厨房,英伟达创始人黄仁勋向世人发布了最新一代消费级显卡 GeForce RTX 30 系列的最初三个型号 GeForce RTX 3070、RTX 3080、RTX 3090。

「无论性能还是能效,安培架构 GPU 都是图灵的两倍,」黄仁勋说道。「从架构、定制流程设计、电路、逻辑、封装、series IO、显存、供电、散热、软件和算法…… 我们在所有层面压榨 GPU 的性能,最终实现了世界水平。」

关于这次发布,网上早已有各类信息提前曝光。但大家最为关心的就是 GeForce RTX 30 系列的性能与报价。用老黄的话说就是,与 2080 价位相同,但速度提升了一倍。而 3090 更是 GPU 中的猛兽,黄仁勋称之为 BFGPU(big ferocious)。

这些公版GPU的国行价格也第一时间出现在了英伟达中国官网上:

当今最强 GPU

在深度学习、光线追踪的一系列热场后,黄仁勋突然从放置抹刀的瓶子后,拿出了了一块 RTX 3080,开始正式介绍 RTX30 系列。

总体来说,GeForce RTX 30 系列确实占据了 GPU 界的多项「第一」:首款有着 24GB  GDDR6X 显存的游戏图形卡;首批支持 HDMI 2.1 的 GPU,一块显卡即可实现 4k 高刷新率或 8k 游戏;首批支持 AV1 编译码器的独立 GPU,实现以更少的带宽观看更高分辨率的视频流。

除了制程提高,安培架构还有一些针对 AI 计算特有的机制,其中的三代 Tensor Core 会对稀疏张量运算进行特别加速:执行速度提高一倍,也支持 TF32、FP16、BFLOAT16、INT8 和 INT4 等精度的加速——系统会自动将数据转为 TF32 格式加速运算,现在你无需修改任何代码量化了,直接自动训练即可。

最终在跑 AI 模型时,如果用 PyTorch 框架,相比上一代 V100 芯片,A100 在 BERT 模型的训练上性能提升 6 倍,BERT 推断时性能提升 7 倍。

AI 是目前科技领域最强大的技术力量,可以让计算机从大量数据中学习知识,甚至据此编写出软件。在图形领域,我们仍然可以通过 Tensor Core 的力量增强视频的画面。「我们现在可以只计算低分辨率图像的光追,再用 Tensor Core 通过 DLSS 将其还原成高分辨率,同时还能提高画面帧率。」黄仁勋说道。

信息来源:机器之心

03

百度飞桨PaddleDetection威力再显,助力获得两项ECCV目标检测冠军

近日,百度视觉团队借助PaddleDetection在计算机视觉顶会ECCV 2020 (European Conference on Computer Vision,欧洲计算机视觉国际会议)比赛中,斩获两个赛道冠军,分别是Tiny Object Detection和目标检测领域最权威的比赛COCO。

PaddleDetection是基于飞桨核心框架构建的目标检测开发套件,覆盖主流目标检测算法,并提供丰富的预训练模型,帮助开发者快速搭建出各种检测任务框架,高质量完成各类目标检测任务。PaddleDetection采用模块化设计,解耦了检测常用的组件,非常方便开发者按需组合并扩展新的算法。

PaddleDetection产品结构

经过不断打磨优化,PaddleDetection的YOLO v3系列模型性能大幅增强,新增多款IoU(Interp over Union)、损失函数、以及多种强大的目标检测模型,套件整体丰富度再次提升。下面我们一起深度探究一下冠军团队的模型优化思路。

小目标检测任务使用TinyPerson数据集,包括794张训练图片,每张图片中包括上百个小目标人物。任务的目标是评估测试图片中Tiny大小(20*20~40*40像素)的人体目标的AP(Average Precision)。

百度视觉团队的开发同学研究了几种常见的两阶段检测器:Faster R-CNN、FPN、Deformable R-CNN、Cascade R-CNN等,从而探查其对不同IoU阈值的检测标准的适合性。

算法优化方法主要分为四个部分:数据增强、训练策略改进、模型改进和模型融合

1. 数据增强

通常无人机采集的人群数据集,如Semantic Drone Dataset、Stanford Drone Dataset ,由于数据集数量较小,很难达到快速收敛和较好的检测效果。百度视觉团队采用额外的同类数据来进行同尺度预训练,从而提高模型对同等先验知识的理解,提高模型的检测能力。通过加入数据增强策略,提升2%至3%。

2. 训练策略改进

对于无人机航拍收集的数据,不同图像的原始尺寸和目标的相对尺寸有所不同,导致检测器对有些图像的理解困难。在训练过程中,我们随机地将输入图像的大小调整为原始大小的0.5、1.5倍、1.5倍,解决尺度差异问题。在改进训练策略以后,由57.9%提升至65.38%。

3. 模型改进

对于传统的二阶段检测器,如R-CNN和FPN系列,通常使用ResNet系列网络作为骨干网络。为了改进此种系列检测器,对于FPN检测器,P3层为微小物体的检测提供了相对应尺度的特征。然而,P3层的不足在于它具有较少的语义信息。因此用PAFPN代替FPN,提高了网络的语义识别能力。与普通的FPN相比,PAFPN增加了一条自下而上的路径,从而提高了基于提议的实例分割框架中的信息流。此外,在下采样模块中,使用“carafe”下采样方法代替原来的卷积模块下采样方法,然后使用可变形卷积模块。在上采样模块中,还使用可变形卷积模块代替原来的卷积模块对特征进行上采样。改进后的PAFPN,提升了1.5%。

4. 模型融合

对于难度较大的无人机航拍的小目标检测任务,单尺度单模型显然无法满足图像的复杂以及低信噪比特性,因此,百度视觉团队考虑使用多尺度多模型实现高精度检测。对于模型融合方法,采用具有不同骨干网络(Res2Net, ResNet200,ResNeXt101,SENet154等)的Cascade R-CNN检测器进行融合。对于每个模型,预测了NMS后的边界框。给每个模型一个0到1区间的标量权重。所有权重总和为1,每个模型的盒子的可信度分数乘以其权重,最后合并来自所有模型的框并运行原始的NMS,添加来自不同模型的分数而不是只保留最高的一个。依次顺序使用NMS的修改合并了不同IoU阈值的预测框。最终,模型的达到了72.23%。

通过以上的优化策略,百度视觉团队在Tiny Object Detection比赛中获得冠军,领先第二名0.8%。

信息来源:飞桨PaddlePaddle

04

好好的人,说没就没了:这个视频「橡皮擦」让你瞬间消失,头发丝都不留

画面中的人物,骑着白马飞驰,却在跨栏的一瞬间突然消失,这一定是穿越时空才有的情节?

在公园中旋转起舞的女孩,转身间消失无踪:

近日,弗吉尼亚理工大学和 Facebook 的研究者提出了一种基于流的视频补全新方法,在视频去水印、物体移除、画面扩展等方面均有着出色的表现。该研究已入选 ECCV 2020。

视频补全(video completion)任务是用新合成的内容填充给定的时空区域。它有很多具体应用,包括修复(去除划痕)、视频编辑、特效处理(去除不需要的对象)、去水印以及视频稳定化等。新合成的内容应该无缝嵌入视频中,使得更改不被察觉。

视频补全任务是具有挑战性的,需要确保补全后的视频在时间上是连贯的(不会闪烁),同时还要保留动态摄像机的运动和视频中复杂的物体运动。

直到几年前,大多数方法都还使用基于补丁的合成技术。这些方法通常合成速度很慢,并且合成合成新内容的能力有限,因为它们只能重新混合视频中已有的补丁。

近来,基于学习的技术实现了更合理的合成效果。但是由于视频占用的内存较高,基于 3D 时空核的方法存在分辨率上的问题。迄今为止,最成功的方法是基于流的。他们一起合成色彩和流,沿着流的轨迹传播颜色,以提升视频的时间连贯性。从而减轻内存占用问题并实现高分辨率输出。这项新研究也采用了这种通用方法。

使用基于流的方法获得良好结果的关键是准确的流补全,尤其是沿着目标边缘合成高度精确的流边缘。但是,之前的方法都无法做到这一点,常会产生过度平滑的结果。尽管使用这种方法在背景平坦的情况下可以顺利地删除整个目标,但如果情况复杂一点,这些方法就会崩溃。例如,现有的方法难以很好地补全部分可见的动态对象(图 1b–c)。值得注意的是,这种情况在补全静态屏幕空间掩码时经常发生。

图灵奖得主 Yann LeCun 也在推特上推荐了这项研究:

论文链接:

https://arxiv.org/pdf/2009.01835.pdf

信息来源:量子位

05

GPT-3开始探索付费使用:每月给个700块,写得比莎士比亚还多

10月1日起,如果想要使用GPT-3接口的话,恐怕得收费了。

当然,如果你的使用程度在每个月100次以下,大概率上还是可以蹭蹭免费的API。不过如果要大规模使用、或者用来做实验的话,那么交钱是不可避免的。

目前的收费方式,是按输入输出的词(token,包括单词、符号和标点)数量计价,如果每个月花费700元的话,就能获得GPT-3接近3000页小说的输出。

有网友在社交媒体上po出了一张表单,目前来看,如果在3个月试用期以内、或是每个月用不到100k词的话,GPT-3接口是免费的。

不过,只要输入词,GPT-3输出的词量基本都在1k左右。计算下来,每个月使用GPT-3超过100次的话,就绝对要花钱了。

往上走的话,大约每1000个词,需要花6-8美分不等,用得越多,价格也会越便宜。

从表格中的数据来看,如果每个月需要200万词,所需要的价格是100美元(折合人民币约700元);而如果用到1000万词的数据量,所需要的价格是400美元(折合人民币约2800元)。

从表格中来看,收费情况下,还能获得更高优先级的支持?

听起来真有点订阅产品的味道了。

举个例子,莎翁的全部著作大约有90万字,算上标点符号后,一共有120万个词。

也就是说,不到700元,GPT-3写出来的东西比莎士比亚的全部著作还多。

目前来看,10月1日起的收费情况依旧针对内测用户,也就是说,暂时还不会面向公众开放。

信息来源:HyperAI超神经

END

猜你喜欢

转载自blog.csdn.net/weixin_45449540/article/details/108439477