Cloud Dataproc开始支持SparkR将突破限制

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/SBFPLAY561/article/details/85286558

GCP宣布在其Cloud Dataproc服务上释出SparkR作业的测试版,供数据科学家在需要扩展分析规模的时候,利用托管的运算资源。使用者可以选择使用云端服务器版的RStudio,以获取备份与高效能执行的优点。R语言通常用建构数据分析工具和统计应用程序,而SparkR是一个轻量级的前端套件,供开发者在Apache Spark上开发R语言应用,而这整合让R开发人员可以,使用类似dplyr的数据操作语法,操作储存在云端各种大小的数据集。SparkR还支持使用MLlib进行分布式机器学习,使用者可以用来处理大型云端储存资料及或是运算密集的工作。

而Cloud Dataproc是GCP的完全托管云服务,使用者能以简单且高效能的方式执行Apache Spark和Apache Hadoop丛集。 Cloud Dataproc工作API可以轻松的将SparkR工作分派到丛集中,无需开放防火墙才能利用网页IDE或是SSH存取主结点,而且藉由工作API,可以自动重复在数据集上进行R统计。在GCP上使用R可以避免因为基础设施所带来分析上的限制,使用者可以自由建构大型模型,以分析过去需要高效能计算基础架构才能运算的数据集。虽然SparkR工作API提供简单的方式,执行SparkR程序代码并自动运行任务,但大多数R开发人员仍习惯使用RStudio进行探索性分析,而GCP上的R也提供开发人员熟悉的RStudio接口。而提供接口的RStudio服务器可以在Cloud Dataproc主节点、网络大厂 Compute Engine虚拟机,甚至是在GCP之外运行都可以。

开发者可以选择在GCP上创建RStudio服务器,并在不需要的时候关闭,开发者还可以选择RStudio的商业发行版RStudio Pro。网络大厂表示,虽然从桌面连接到云端是一种使用RStudio的方法,但大多数R开发人员仍喜欢使用云端服务器版的RStudio,从任何工作地点获取桌面设定,在个人计算机之外备份工作,并将RStudio设置在与数据源相同的网络中,利用网络大厂的高效能网络可以大幅提高R应用的效能。在Cloud Dataproc上执行RStudio的另一个优点,是开发者可以利用Cloud Dataproc自动扩展功能(Autoscaling),在开发SparkR逻辑时可以使用最小丛集规模,一旦工作需要大规模处理时,开发者不需要修改服务器,只要将SparkR工作提交给RStudio,Dataproc丛集便会根据设定的区间,自动扩展以满足工作需要。

GCP上的运算引擎能良好的扩展R的统计功能,透过BigQuery套件包,开发者能查询BigQuery表格并检索相关项目的元数据、数据集、表格和工作。在Cloud Dataproc上执行SparkR套件时,可以使用R来分析和建构储存在云端中的数据。一旦探索完毕,准备进入建模阶段,开发者可以使用TensorFlow、Keras和Spark MLlib函式库,TensorFlow存在R接口能够利用进阶Keras和Estimator API,而需要更多控制时,开发者也能拥有完全存取核心TensorFlow API的权限。Dataproc上的SparkR工作允许开发者大规模训练和评分Spark MLlib模型。另外,想要大规模训练和托管TensorFlow和Keras模型时,也可以使用R接口存取云端机器学习引擎,直接让GCP代为管理资源。

猜你喜欢

转载自blog.csdn.net/SBFPLAY561/article/details/85286558