GTC 2019人の参加者仕上げ

私の同僚は、他の会議が競合しているとして、NVIDIA GTC 2019は、蘇州湖国際会議センターで開催されたので、彼が会議に出席するために私が記入しました。GPUとマシンが新しい世界にすぐに新規参入者、感触を学習する新しいとして、技術の急速な反復技術革新への深い経験は、NVIDIA GPUは、最適化のスタック全体を通じて、ムーアの法則の実現を加速します。

2019年12月16日- 2019年12月17日には
最初の2日間は、主に、おそらく次の、基本的には1000以上の元、学生の訓練のかなりの部分をスキャンし、このコースは、より高価な、コースをトレーニング。彼の同僚が予定されていない前に、しかし、適切ではない何をして来ることができなかったので、教室に彼の作品のカードでテンセントバディ子を理解する方法を見つける(強制)。修理「深い基礎学習-自然言語処理」と「深い学習の基礎-複数のデータ型を」2つのコースを、望んでいた学習-このコースでは「深い学習の基礎マルチGPUとは、ニューラルネットワークを訓練し、」(今、私たちと可能性について考えますビジネス関係の一部)が、人々はに行かなかった知りませんでした。2つのコースが正常に完了したが、一部の学生に困難NVIDIAによって発行された証明書、「自然言語処理」適切な方法小さな計画問題を取得します。2つのコース、科学リテラシーの効果を渡します。

2019年12月18日
今日のメインイベントは、公式サイトに続くNVIDIAの基調講演のCEOジェン・スン・フアンは、ライブビデオであるべきです。多くの人が出席し、今年、みんなの気持ちの二つの絵を入れました。

それは、今年は新しいGPUのハードウェアプラットフォームを起動していなかった2017年にボルタGPUリリースするので、基調講演は、ショックの感覚が強いもたらし比較すると言われて、ちょうど次の世代のSoCオリンをリリースソフトウェア定義(この中それは)詳細については後述します。もちろん、これも、ハードウェア技術の株式ではなく、リズムの導入を制御する必要性について、理由NVIDIAの観点から、また、より合理的です。場合には技術はまだ市場をフルに活用して公開されていないので、その後の商業視点と価値がないから、新技術の画期的なポイントの導入、。あなたは、それはまた、今年の大規模な産業の受け入れの始まりである、精密V100アクセラレーション技術を混合、知っています。

黄の基調講演の内容は次のとおりです。

RTXの進捗状況

昨年、NVIDIAは、新世代GPUアーキテクチャRTX --Turing(チューリング)、およびチューリングアーキテクチャRTX GPUに基づいてシリーズをリリースしました。黄10年以上でNVIDIA GPUへのコンピュータグラフィックス、レイトレーシング技術の分野で最も重要な技術革新のためのNvidiaチューリングの枠組みを述べました。彼は今日6 RTXゲームのサポートを発表しました。加えて、NVIDIAはまた、最大-Qのデザインを作成し、それは超高GPUのエネルギー効率とシステム全体を巻い最適化は、高性能薄型軽量ノートPCのために使用することができます;一方、クラウドコンピューティングの普及で、NVIDIAとテンセントは、STARTクラウドゲームサービスを起動します。

深推薦システム

BaiduのAIBox推薦システムは、このシステムは、NVIDIAテスラのV100のGPUに基づいており、NVIDIA AIを使用して、これらのTBレベルのデータ・セットの使用は、このTBレベルを訓練するためにそれらのGPUメモリに入れて、その後、GPU上のモデルの学習データを作成しますデータ、CPU GPU訓練費の10分の1、およびより大きなモデルのトレーニングをサポートし、アリババは、推薦システムを構築するためには、NVIDIAのGPU T4、劇的に増加されたスループット推薦システムを使用しています。毎秒回の顔照会要求数十億、CPU速度はわずか3 QPSで、NVIDIA GPUは100回持ち上げ、780 QPSに上昇させます。推奨されるシステムの二つの問題:まず、推奨モデルとその複雑さ、パラメータは非常に対処する必要があり、かつ非常に強力な手段コンピューティングパワーという。もう一つの問題は、リアルタイムおよび所与のフィードバックで計算することが推奨されるシステムのニーズです。推奨CPUシステムよりもビルド推薦システムにコンピューティングGPUの並列の良好な使用が大幅に百倍を達成するためにビルドにコストを削減したり、パフォーマンスを向上させます。

ハードウェアとソフトウェア

今年6月には、NVIDIAはまた、CUDAの終了前に腕のエコシステムのサポートを発表し、LETのARMベースのチップは、より多くのコンピューティングスーパーコンピュータシステムを学ぶより深さで使用することができます。今日、彼のスピーチは、ARM初のリファレンス・アーキテクチャのためのNVIDIA HPC呼ばれ、CUDAはARM、HPC用ARMサーバの理想によって加速とAIと戦います。報告によると、GPU +アームハードウェア、プラスTensorFlow CUDAと最適化、性能を学習アーム深さがプロセッサ性能のx86の96%であった; 4枚のメラノックスCX5カードと各ボルタGPU、新しい介してCPUに接続された4 CX6の生成が非常に強い性能が得られ、また、DGX-2での動作マグナムIO GPU直接記憶技術を説明し、リアルタイムのデータは、大きな視覚化します。

ソフトウェアは、NVIDIAは、GPU上の効率モデルの実行ので、劇的に、計算およびメモリアクセスを減らすために、AIモデルPyTorchとTensorFlowや訓練を受けた他のフレームワークを最適化することにより、昨年TensorRT5、計算グラフ最適化コンパイラをリリースしました。今年はTensorRT7を立ち上げ、それがRNN、変圧器やCNNのすべての種類をサポートしています。比較するとTRT5わずか30をサポートして変換し、TRT 7は、1000の以上の異なる変換と最適化計算をサポートすることができます。

「爆弾」製品 - 自動車やロボットは、次の世代をオリン

老黄在演讲当中提到,该芯片由170亿个晶体管组成,凝聚着英伟达团队为期四年的努力。Orin系统级芯片集成了英伟达新一代GPU架构和Arm Hercules CPU内核以及全新深度学习和计算机视觉加速器,每秒可运行200万亿次计算(200TOPS),几乎是英伟达上一代Xavier系统级芯片性能的7倍。Orin可处理在自动驾驶汽车和机器人中同时运行的大量应用和深度神经网络,达到了ISO 26262 ASIL-D等系统安全标准。
作为一个软件定义平台,DRIVE AGX Orin能够赋力从L2级到L5级完全自动驾驶汽车开发的兼容架构平台,助力OEM开发大型复杂的软件产品系列。由于Orin和Xavier均可通过开放的CUDA、TensorRT API及各类库进行编程,因此开发者能够在一次性投资后使用跨多代的产品。

老黄的演讲完之后,逛了下几个展台,参加展会的厂商比较多,服务器硬件头部玩家浪潮、新华三以及互联网BAT、滴滴、字节跳动都有参加。展台的内容也比较丰富,从服务器硬件到深度学习软件平台,从AI机器人到智能驾驶,从ARM芯片到VR都有涉及,我们阿里巴巴公司的展台就紧挨着NVIDIA,主题内容是阿里云GPU云服务让AI更高效更简单。浏览完展台后,根据自己从事工作技术的特点,选择了几个跟我们组目前工作联系比较紧密的session,想看看业界对于多机多卡的的大规模计算平台是怎么发挥GPU的算力。带着这个思考,去关注了相应的session,而一些跟我眼前工作不直接相关的session,比如运营商5G通信网络AI研发与实践、中国移动人工智能规划及发展则是期望对AI的一些应用场景建立一些更直观的体感或者从宏观层面了解其发展。

  • 大规模算力平台构建和多机多卡线性扩展
  • 百度凤巢基于HGX-2的CTR模型训练方案
  • GPU全链路优化方案助力金融视觉平台
  • 运营商5G通信网络AI研发与实践
  • 中国移动人工智能规划及发展
  • NVIDIA vGPU在Linux KVM中的新优化和提升
  • NVIDIA GPU和Mellanox网络计算技术挑战AI性能新极限

大规模算力平台构建和多机多卡线性扩展是腾讯高性能计算服务星辰-机智团队带来的分享。分享主要包括大规模算力平台构建、多机多卡线性扩展、业务落地与运营三个部分。平台构建方面基于K8S提供不同训练框架、不同cuda版本的基础镜像,镜像仓库支持用户自定义,用演讲人的话说容器开箱即用;物理架构方面结点内不同CPU走QPI连接,同时CPU通过PCIe Switch和GPU通信,同一个PCIe Switch下的GPU通过GPU Direct RDMA连接。结点间通过100Gbps RDMA通信。在多机多卡部分,主要介绍了一个单机IO“无锁”队列技术、分层RingAllReduce算法(这个之前在知乎文章中有介绍,恰好这次分享的作者就是这篇文章的作者)以及AutoML超参搜索。他们的目标是打造腾讯AI基础设施。
总体感觉:腾讯这个组做的事情有点类似于。在GPU集合通信方面他们应该采用的还是NCCL,不管是硬件架构还是算法支持,都是落户于我们平台的。但在资源集中管理、统一调度以及任务化方面可能做的比我们要好。问了两个问题:1、针对云上多租户场景,怎么做资源调度和分配?2、介绍的分层RingAllduce怎么针对带宽做数据传输限制的?回答1、目前还没接入腾讯云,下一步正在考虑接入。回答2、现在内部节点GPU挂载PCIe Switch下面,通信都是走的PCIe,所以没有高带宽和低带宽的差异,所以对数据传输没有啥限制。

百度凤巢基于HGX-2的CTR模型训练方案是来自百度凤巢和基础架构部的分享。分享主要包括百度新一代CTR训练方案AIBox整体架构、百度AI计算平台孔明和AI计算机X-MAN、AIBox软硬协同解决存储、计算、通信挑战;百度AI计算机X-MAN是集计算、存储、网络关键技术融合一起的一体机(一体机貌似是个趋势:阿里内部的POLARDB Box数据库一体机、华为FusionCube一体机……)。向上对接大规模分布式训练平台孔明,再往上就是深度学习训练系统AIBox,这一套提供底层的基础平台承接广告、推荐等高价值的业务应用。X-MAN到目前为止经历了1.0到4.0的迭代,从最初的单机16卡,支持64卡扩展到引进液冷高效散热;再到模块化:NVLink高速互联背板、100G RDMA节点间互联网络、独立的Mezz和PCIe卡系统。以及目前行业首个4路CPU的超级AI计算机。再搭配飞浆PaddlePaddle,借力生态优势,加速算法迭代。据现场介绍,单个X-MAN GPU节点可以替换100个CPU节点,而AIBox 19年6月在CTR模型上全流量上线,搜索广告、图片凤巢、商品广告等主要模型全面切换AIBox。
个人感觉:百度这几年在AI方面的积累确实领先其他公司,不管是无人驾驶还是AI计算平台。而由于要赶其他会场,就没有提问。

GPU全链路优化方案助力金融视觉平台是蚂蚁金服认知计算和知识图谱团队的分享,因为之前看介绍有GPU训练和预测优化方案和成果,包括基于nccl2和gpu direct rdma的hierarchical allreduce的多机多卡训练,可以在NVIDIA Tesla V100的8卡集群接近线性加速比。想跟这个团队推荐下我们的***,会后沟通才了解到之前有我们的PM跟他们接触过。回去后他去了解下之前遇到了什么问题,然后看看是不是可以更进一步的合作。

运营商5G通信网络AI研发与实践,为参会者阐述运营商人工智能发展思路、技术路线和典型案例。讲解运营商网络重构、智慧运营和5G规划建设中的难点和瓶颈,以及人工智能技术所能发挥的成效、基于NVIDIA GPU的工程实践。

中国移动人工智能规划及发展,中国移动统一AI平台采用Kubernetes+Docker的基础架构,以 NVIDIA NGC提供的镜像为基础,集成了TensorFlow、PyTorch、Caffe等主流AI算法框架,基于 RAPIDS 算法库利用GPU实现对传统机器学习的10倍以上加速,规模化承载AI应用,为集团节约成本高达5亿元/年。

NVIDIA GPU和Mellanox网络计算技术挑战AI性能新极限是来自mellanox公司Marketing的Qingchun Song的分享,主要介绍了Socket Direct、Adaptive Routing、RDMA and GPU Direct、SHARP-Data Aggregation四个方面。整体感觉mellanox公司在加速HPC/AI框架上做了很多工作,在局部性能性能上也取得了不错的效果,比如:把集合通信算法AllReduce跑在他们的IB交换机,能使计算时间从30~40us缩短到3~4us;结合NVIDIA的集合通信库NCCL他们采用SHARP技术,在ResNet50上性能提升了10%~20%。。。
个人感觉:mellanox提供了很多有意义的性能提升技术,但是这些都是要基于使用他们的硬件,而这对于如果一个产品刚开始没有使用他们家的产品,又想利用他们家的技术来获得性能提升,可能就需要整体硬件的更迭改造,但是往往收益又赶不上这刮骨疗伤的成本,鱼和熊掌不可兼得啊!

おすすめ

転載: www.cnblogs.com/goya/p/12078149.html