RAPIDS,为数据科学和机器学习而生

版权声明:本文为CSDN原创文章,未经博主允许不得转载。 https://blog.csdn.net/sunhf_csdn/article/details/83538591

“数据分析和机器学习是高性能计算市场中最大的细分市场,不过目前尚未实现加速,全球最大的行业均在海量服务器上运行机器学习算法,目的在于了解所在市场和环境中的复杂模式,同时迅速、精准地做出将直接影响其基础的预测 。”在10月10日召开的英伟达欧洲GTC大会上,NVIDIA创始人兼首席执行官黄仁勋在介绍英伟达新推出的针对数据科学和机器学习的GPU加速平台RAPIDS时用了上述开场白。

“得益于CUDA及其全球生态系统以及与开源社区紧密合作,我们已创建了RAPIDS GPU加速平台。该平台已与全球最流行的数据科学库及工作流无缝整合,可加速机器学习。如同深度学习一样,我们正在不断地为机器学习提速。”黄仁勋说。

RAPIDS,为数据科学提供50倍加速

正如黄仁勋所述,在数据分析和机器学习领域,在RAPIDS出现之前,数据科学家以及机器学习专家确实饱受算力限制导致的效率低下之苦。《DAY IN THE LIFE OF A DATA SCIENTIST》这张图就很形象并且幽默的诠释了数据科学家在面对算力限制所表现的无可奈何:在使用CPU时,由于CPU算力的限制,在数据模型训练期间,数据科学家无处可去,只能把大把的时间浪费在喝咖啡上。而在使用了GPU加速之后,数据科学家们就基本就没有时间去喝咖啡了。

而RAPIDS正是可以充分利用GPU的强大算力来为数据科学家提供支持的强有力的工具,它第一次为数据科学家提供了他们需要用来在GPU上运行整个数据科学的标准流水线工具。最初的RAPIDS基准分析利用了XGBoost机器学习算法在NVIDIA DGX-2™ 系统上进行训练,结果表明,与仅有CPU的系统相比,其速度能加快50倍。这可帮助数据科学家将典型训练时间从数天减少到数小时,或者从数小时减少到数分钟,具体取决于其数据集的规模。

RAPIDS,50倍加速的秘密

在近日举行的RAPIDS媒体沟通会上,英伟达亚太区解决方案架构主管赵立威详细介绍了RAPIDS。RAPIDS 构建于 Apache Arrow、pandas 和 scikit-learn 等流行的开源项目之上,包含CUDF、CUML、CUGRAPH、CUDNN等多款组件。而这些组件分别用于对数据科学计算的不同阶段进行加速。

赵立威分别对这些组件进行了介绍,他表示,CUDF能够快速的对数据进行解压,并加载到ETL系统中去。CUDF还可以对数据进行过滤,合并以及特征提取等所有ETL过程;它与Pandas的功能非常类似,甚至Pandas提供的所有调用、API,在CUDF里都能找到对应的动作、API或者对应的算法,因此,可以很容易的基于CUDF去实现Pandas里面实现的所有的功能。CUML可以说是一个算法库,不管是分类、聚类、回归等这些算法,都可以在CUML里面找到。CUGRAPH是一个基于图形的算法工具,应该会在明年推出。这三套软件工具,都是基于CUDA开发而来,也可以把它看成CUDA上面的一部分。CUDNN则是专门针对深度学习提供的,而那些耳熟能详的深度学习框架基本都是通过CUDNN开发的。而在整个数据处理的流程中,数据一直可以保存在内存中。因此,数据在经过大数据的处理过程以后,未来可以很容易与深度学习进行结合,并在内存中进行计算和操作。因此,RAPIDS才能够为数字科学家提供50倍的效率提升。

RAPIDS,开源合作的产物

不过,虽然RAPIDS是由英伟达主导研发,但赵立威强调,开源是RAPIDS非常非常重要的一点。赵立威表示,这个开源包含两层含义:第一,整个RAPIDS是英伟达与包括Anaconda、BlazingDB、Databricks、Quansight、scikit-learn、Ursa Labs 负责人兼 Apache Arrow 缔造者 Wes McKinney 以及迅速增长的 Python 数据科学库 pandas 等在内的众多开源社区以及开源生态系统贡献者紧密合作的产物。第二,RAPIDS平台本身是开源的,英伟达希望通过这种方式,可以有更多开源开发者,来贡献他们的代码、贡献他们的智慧,不断的丰富和完善整个平台上面的基础特性,服务更多的场景。

实际上,除了和众多开源社区合作之外,众多知名公司,如Hewlett Packard Enterprise、IBM和Oracle等与英伟达在GPU对数据分析的重要性方面日益达成共识,并对RAPIDS表现出越来越多的支持。而且,沃尔玛、惠普等企业已经率先应用了RAPIDS开源GPU加速平台,IBM等企业也表示期望利用RAPIDS来为客户提供全新的机器学习工具。

不过,虽然RAPIDS是一款开源软件,但如果想要充分享受RAPIDS带来的超高加速体验,最好的平台当然是英伟达自家的DGX-2、DGX-1、DGX station以及HGX-1、HGX-2,不过,据英伟达相关人士透露,具有四个NVLink连接的Tesla GPU服务器、以及遵循8卡的HGX-1或者16卡HGX-2参考架构的服务器应该也都可以流畅运行RAPIDS。当然,在GTC上公布的几家OEM厂家的推荐机型也是RAPIDS的良好运行平台。另外,通过NGC平台,也能够享受到RAPIDS带来的加速体验。还有,RAPIDS目前已经开放下载,有兴趣的开发者朋友可以到www.rapids.ai 下载体验。

猜你喜欢

转载自blog.csdn.net/sunhf_csdn/article/details/83538591