价格OR配套,11项指标盘点国内外AI算力GPU共享服务

随着核心算法的突破、计算能力的迅速提高及海量数据的可用,人工智能(AI, Artificial Intelligence)终于迎来了质的飞跃。以AlphaGo为代表的围棋AI,对人类最顶级的选手,取得了碾压式的胜利。人工智能成为了全球瞩目的科技焦点,各路资本、各行各业也纷纷布局人工智能,以便在这个关乎未来的关键赛场上赢得先机。

人工智能的需求快速膨胀,从业人员的薪资也水涨船高。据估计,国内AI人才缺口在数百万以上,与AI密切相关的算法工程师,平均薪资已接近30万。如此火热的行情,吸引了越来越多的学生、程序员转行人工智能。

         然而,透过人工智能发展的表面喧嚣,华为提供的一组数字,又让人感受到了 “冷静”:

  1. 只有4% 的企业已经投资或部署了AI;
  2. 只有约2% 零售商已经投资或部署了AI;
  3. 2017年只有约10%的智能手机内置了AI;
  4. 全球AI人才的供需比仅有1%。

问题分析

         在算法性能突飞猛进之后,是什么限制了AI技术的落地?总结起来,以下几方面因素,正在成为普通企业拥抱人工智能、程序员们转行人工智能的拦路虎:

  • 模型训练耗时长:这轮人工智能浪潮的核心是深度学习,它需要构建复杂的深度神经网络来完成各种任务。这些神经网络可能有成百上千的层数、数十亿的节点与训练参数。这种复杂模型的训练,往往需要数天甚至数月。这种训练速度严重制约了应用创新。
  • 算力成本大:算力是AI的基础。英伟达(Nvidia)GPU显卡是深度学习主要的算力平台。得益于人工智能的火爆,英伟达的股价在过去三年增长了近10倍。然而,以GTXTesla等为代表的显卡,有着动辄数千甚至数万的售价。对于个人或业务刚刚起步的公司,AI算力成为一笔昂贵的投入。
  • 学习与开发门槛高:人工智能的基础涉及高等数学、概率统计、线性代数等,又与程序设计、分布式计算、图像处理与自然语言处理等密切关联。许多人对人工智能虽然兴趣浓厚,却不知学习该何处下手。许多公司,面临人才短缺、开发环境难建等难题,AI业务难以开展与落地。

困难就是机会,需求就是商机。在美国西部淘金热的时代,真正淘金发财的少之又少,为淘金客提供饮水、衣服与盆铲的李维斯们,却大发其财、绵延至今。现在,AI应用的热度几与淘金可比,那么,面向AI提供算力、环境配套与培训等服务,是否又是巨大的商机呢?与这个认识可印证的是,国内龙头企业华为,于1010日在它的2018年全联接大会上,重磅发布了一整套AI战略,剑指算力、门槛、平台等AI应用的核心问题。

公司筛选

      带着这个认识,我们盘点了国内提供算力、环境配套与培训等AI基础服务的企业。我们关心有以下业务方向的企业:

  1. 提供经济实惠的算力。鉴于Nvidia一家独大,AI芯片只见热炒不见售卖,我们将目标投向那些提供GPU算力租赁的企业。需要指出的是,CPU算力是非常便宜实惠的,但CPU在深度学习计算上效率不高,不是深度学习的主要算力来源。
  2. 提供AI开发相关的配套服务AI开发,以Linux为主,需要安装TensorflowPyTorch等至少一种框架,往往还需要安装OpenCVPandasNumpy等软件包。如果要分布式训练,还需要分布式框架的支持。整个过程配置繁琐、复杂、易出Bug。租赁的主机,能够预装这些常用开发包,可大大节省开发人员的时间。
  3. 提供AI学习相关的培训服务。市面上的AI培训课越来越多,但不少是借AI之名将Linux系统、前后端开发、数据分析等内容重新打包,缺少真正的AI培训课。个中缘由,一是AI发展很快,培训课需频繁更新;二是人才奇缺,优质人才都在做开发。优质AI培训,是市场的急需。

算力是以上问题的核心。我们以算力共享租赁作为主要的标准来寻找公司。

传统上,云计算是一种主要的算力共享模式。许多大公司,如Google、亚马逊、微软及国内的华为、阿里、腾讯、百度等,均提供GPU云主机。提供云主机的创业公司UCloud,发展迅猛,与AI ChallengerAI竞赛的合作也进一步放大了它的影响力。去年Nvidia推出了一项政策,用于云与数据中心的显卡,与个人客户的显卡相比,算力相近时售价差近十倍。因此,云主机的租赁,十分火爆的同时,我们的感觉就是一个字—“贵”。

另一种租赁方式是共享主机。它仍采用普通PC或服务器,不受Nvidia政策的限制,可采用相对经济实惠的GTX显卡(其实GTX 1080Ti高达7~8000千的售价,也是贵!)。用户可以按需租用这些主机,由于采用了共享经济的理念,这种方式比较经济实惠。这些主机可以公司自建,也可以采用P2P方式。最近,这个方向涌现了一批公司。我们所知,

  1. 国外:FloydHub、VectorDash、Vast.ai与ClusterOne。
  2. 国内:EasyAI与易学智能。

它们都怎么样呢?且听下回分解。

比较

我们共选择了9家相关公司,三家云服务公司(华为云、美团云与UCloud)、四家提供分布式主机的国外公司(见上)、两家提供分布式主机的国内公司(见上)。信息如表1所示。

由于相关资料有限,描述未必完全准确,详情请到公司官网了解。提供云服务的厂家如过江之鲫,这里只是列出了三家,其他家的价格与服务都差不多。

表1公司官网

公司名

官网

华为云

https://www.huaweicloud.com/

美团云

https://www.mtyun.com

UCloud

https://www.ucloud.cn/

FloydHub

https://www.floydhub.com/

Vast.ai

https://vast.ai

VectorDash

https://vectordash.com/

ClusterOne

https://clusterone.com/

EasyAI

简单AI实验室

https://www.easyailab.cn/

EasyAIforum易学智能

https://gpu.easyaiforum.cn/#/home

闲言少述,直接上表格。各指标的详细解读,请阅文后附录

表2服务指标比拼-1

公司名

价格

开发环境配套

数据集配套

培训配套

讨论社区配套

华为云

11元/小时

美团云

UCloud

2107元/月

FloydHub

5元/小时

Tensoflow、PyTorch、Keras、MXNet、Caffe等

有公开数据集但详情未知

自建教程

Vast.ai

约2元/小时

通常支持Tensorflow、Caffe

VectorDash

约4.5元/小时

ClusterOne

未知

Tensorflow等

未知

EasyAI

仅CPU租赁

仅支持Jupyter Notebook

Jupyter Notebook有大量案例,部分收费

易学智能

5元/小时

 

Tensoflow、PyTorch、Keras、MXNet、Caffe等

还预装openCV、Pandas、Numpy、Matplotlib等软件包

学术公开数据集齐备

竞赛数据集齐备

Jupyter Notebook有大量免费案例

论坛版块多,有深度内容

表3服务指标比拼-2

公司名

分布式训练

用户自有数据

用户数据加密

存储与算力的可扩展

远程调试

主机形态

华为云

可以,但无内置优化

支持

支持

支持

云服务支持

公司自有,

云模式

美团云

可以,但无内置优化

支持

支持

支持

云服务支持

公司自有,

云模式

UCloud

可以,但无内置优化

支持

支持

支持

云服务支持

公司自有,

云模式

FloydHub

支持

未知

未知

支持

未知

公司自有

Vast.ai

可以,但无内置优化

支持,但性能不确定

未知

未知

P2P共享

VectorDash

可以,但无内置优化

支持,但性能不确定

未知

未知

P2P共享

ClusterOne

支持

未开放测试

未知

未知

未知

公司自有

EasyAI

公司自有

易学智能

支持

支持

支持

支持

支持

公司自有

表4 算力共享服务总体感受

公司名

总体感受

华为云

操作复杂,价格贵,没有面向AI的优化。

美团云

操作复杂,价格贵,GPU基本租不到,没有面向AI的优化,

目前,个人用户已不可充值,后续发展有待观察。

UCloud

操作比前两者简便,价格贵,没有面向AI的优化

FloydHub

开发功能较齐备,

有学习内容,

缺少交流社区。

Vast.ai

价格超低,但基本租不到

VectorDash

价格实惠,刚刚上线,也基本租不到

ClusterOne

只开放内测,详情未知

EasyAI

偏重于AI教学培训,

租赁算力主要用于学习。

易学智能

涵盖论坛、开发平台与培训的完整解决方案,

支持分布式、用户自定义与加密保护等,

主流框架都支持,数据集最齐备,免费案例多,

后起之秀,功能完备,体验好。

国内厂家的优惠活动

撸羊毛是大家关心的,下面是各家的优惠活动。

表5优惠活动

公司名

GPU主机相关的优惠活动

华为云

新手体验活动,但未见GPU专门的活动

美团云

UCloud

针对AI Challenger竞赛,可申请免费GPU(但不一定申请成功)

EasyAI

可免费体验

但没有GPU提供

易学智能

注册送一小时,完成调查后再送五小时,GTX 1080Ti六小时使用。

高校学生,每付费使用五小时,赠送一小时。

总结

可以看到,首先,由于Nvidia政策的原因,传统云主机并不是提供GPU算力的经济方案。可以说,采用这样的云主机,还不如自购自建平台(这样,Nvidia能卖更多显卡,垄断者都心黑啊)。其次,分布式GPU算力平台是一个新兴方向,相关的企业还比较少,国内外都处于刚刚起步的阶段。再次,由于GPU算力的稀缺,这个方向,成长空间巨大。

由于众所周知的原因,国内用户使用国外GPU主机是不要想了。就国内而言,简单AI实验室处于推广期,学习资料比较丰富;易学智能作为后起之秀,提供了比较完备的解决方案,最近又在搞各种优惠活动。这两家,大家可以去撸羊毛~~~。

附录:指标详解

我们采用的11项指标如下:

  • 价格:以1080Ti或算力相近的显卡为例。
  • 开发环境配套:虚拟机是否预装深度学习框架及常用软件包
  • 数据集配套:公开数据集主要包括两类,一是用于学术的公开数据集,二是各种AI竞赛的数据集。
  • 培训配套:AI学习的配套教程,既包括算力平台的使用,也包括AI知识技能的学习。
  • 讨论社区配套:AI开发所采用的各种框架、开发包,本身就在急速发展中。可以预见,AI开发面临的bug必然是层出不穷,一个AI学习与讨论社区,对于算力租赁是十分必要的配套。
  • 分布式训练:加速AI算法的训练与执行,并发是主要手段。然而,现在的并发方法都很复杂很不好用。方便易用的并发执行,对AI开发者很有吸引力。
  • 用户自有数据:具体的AI业务,当然要用业务相关的数据来训练。支持用户自定义数据上传,算力平台才能支撑各种实际业务的开发。
  • 用户数据加密:用户数据的隐私保护,重要性不需多言。能否将私人数据保护好,也是用户挑选算力平台的重要依据。
  • 存储与算力的可扩展:任务的不同,所需要的数据量与计算量,差别可以很大。这就要求算力平台提供足够的灵活性,可以让用户按需扩展资源。
  • 主机形态:共享经济是好东西,优点是实惠,缺点是可靠性可用性的损失。一种形式是公司自建算力平台,分时租给不同用户;还有一种彻底的共享——P2P方式,提供主机的也是散落各地的普通用户。
  • 远程调试:直接在远程主机编程并不方便。因此,现在有些IDE已经支持远程调试。远程调试需要远程主机打开相应的端口与服务,本地还需要进行配置。虽然工序复杂,但对用户而言,体验很好。

猜你喜欢

转载自blog.csdn.net/dlhlSC/article/details/83180695