Cloud Dataproc开始支持SparkR将突破限制 - 代码天地

Cloud Dataproc开始支持SparkR将突破限制

其他 2019-01-02 15:35:31 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/SBFPLAY561/article/details/85286558

GCP宣布在其Cloud Dataproc服务上释出SparkR作业的测试版，供数据科学家在需要扩展分析规模的时候，利用托管的运算资源。使用者可以选择使用云端服务器版的RStudio，以获取备份与高效能执行的优点。R语言通常用建构数据分析工具和统计应用程序，而SparkR是一个轻量级的前端套件，供开发者在Apache Spark上开发R语言应用，而这整合让R开发人员可以，使用类似dplyr的数据操作语法，操作储存在云端各种大小的数据集。SparkR还支持使用MLlib进行分布式机器学习，使用者可以用来处理大型云端储存资料及或是运算密集的工作。

而Cloud Dataproc是GCP的完全托管云服务，使用者能以简单且高效能的方式执行Apache Spark和Apache Hadoop丛集。 Cloud Dataproc工作API可以轻松的将SparkR工作分派到丛集中，无需开放防火墙才能利用网页IDE或是SSH存取主结点，而且藉由工作API，可以自动重复在数据集上进行R统计。在GCP上使用R可以避免因为基础设施所带来分析上的限制，使用者可以自由建构大型模型，以分析过去需要高效能计算基础架构才能运算的数据集。虽然SparkR工作API提供简单的方式，执行SparkR程序代码并自动运行任务，但大多数R开发人员仍习惯使用RStudio进行探索性分析，而GCP上的R也提供开发人员熟悉的RStudio接口。而提供接口的RStudio服务器可以在Cloud Dataproc主节点、网络大厂 Compute Engine虚拟机，甚至是在GCP之外运行都可以。

开发者可以选择在GCP上创建RStudio服务器，并在不需要的时候关闭，开发者还可以选择RStudio的商业发行版RStudio Pro。网络大厂表示，虽然从桌面连接到云端是一种使用RStudio的方法，但大多数R开发人员仍喜欢使用云端服务器版的RStudio，从任何工作地点获取桌面设定，在个人计算机之外备份工作，并将RStudio设置在与数据源相同的网络中，利用网络大厂的高效能网络可以大幅提高R应用的效能。在Cloud Dataproc上执行RStudio的另一个优点，是开发者可以利用Cloud Dataproc自动扩展功能（Autoscaling），在开发SparkR逻辑时可以使用最小丛集规模，一旦工作需要大规模处理时，开发者不需要修改服务器，只要将SparkR工作提交给RStudio，Dataproc丛集便会根据设定的区间，自动扩展以满足工作需要。

GCP上的运算引擎能良好的扩展R的统计功能，透过BigQuery套件包，开发者能查询BigQuery表格并检索相关项目的元数据、数据集、表格和工作。在Cloud Dataproc上执行SparkR套件时，可以使用R来分析和建构储存在云端中的数据。一旦探索完毕，准备进入建模阶段，开发者可以使用TensorFlow、Keras和Spark MLlib函式库，TensorFlow存在R接口能够利用进阶Keras和Estimator API，而需要更多控制时，开发者也能拥有完全存取核心TensorFlow API的权限。Dataproc上的SparkR工作允许开发者大规模训练和评分Spark MLlib模型。另外，想要大规模训练和托管TensorFlow和Keras模型时，也可以使用R接口存取云端机器学习引擎，直接让GCP代为管理资源。

猜你喜欢

转载自blog.csdn.net/SBFPLAY561/article/details/85286558

Cloud Dataproc开始支持SparkR将突破限制

Activiti Cloud 开始

Cloud从零开始

cloud

Spring Cloud Gateway - 快速开始

从零开始学spring cloud(七) -------- Spring Cloud OpenFegin

zuihou-admin-cloud 1.8 发布，支持 Cloud Alibaba 2.2.0

Spring Cloud Netflix Zuul中的速率限制

SAP Analytics Cloud导入数据的规模限制

Spring Cloud Config-快速开始

Spring-Cloud-Config快速开始

Spring Cloud Sleuth 2.0.0 发布，支持 Dubbo

cloud39E支持linein输入

spring cloud 关于feign对hystrix支持

Google Cloud Platform 支持 R 语言

Cloud Toolkit 1.1.0 支持 Command 清理

Spring Cloud Function 2.0 发布，支持 Kotlin

Spring Cloud Alibaba Sentinel对Feign的支持

阿里Sentinel支持Spring Cloud Gateway啦

Spring Cloud（03）——内置加解密支持

Spring Cloud Gateway 扩展支持动态限流

Spring Cloud--Feign开启对Hystrix支持

从零开始学spring cloud(二) -------- 开始使用Spring Cloud实战微服务

docker安装spring cloud 以及 cloud alibaba 相关支持服务的配置

Ingram Micro Cloud将TeamViewer加入Cloud Marketplace，以助力远程工作

从零开始学spring cloud(五) -------- 将服务注册到Eureka上

从 Spring Cloud 开始，聊聊微服务架构实践之路

二、Spring Cloud详解一、从Spring boot项目开始

从零开始学spring cloud(四) -------- 基础项目搭建

【微服务从0开始】Spring Cloud 配置文件

今日推荐

技术解析 GPT-4o：即时语音交互的突破与 GenAI 发展策略

开源大模型与闭源大模型

微信小程序授权登录获取用户的openid

亿级流量系统架构设计与实战

人工智能时代的程序设计教学与课程设计

纽交所技术问题致伯克希尔 (BRK.A) 显示跌近 100%

探索 api.maynor1024.live：一站式 AI 服务平台

AI一键去衣技术：窥见深度学习在图像处理领域的革命(最后有彩蛋)

艾体宝案例 | 使用Redis和Spring Ai构建rag应用程序

Apple M1 vs 高通8Gen2 vs Apple A12Z各方面比较

【升职加薪必备架构图】Springboot学习路线汇总_springboot四层架构流程图

与Apollo共创生态：Apollo7周年大会自动驾驶生态利剑出鞘

周排行

tensorflow 笔记：二（北大）

fork函数详解

unity单利模板

mac下的特殊键位指引（转自apple）

c语言入门-注释

Python--多任务[线程，进程，协程]

深度对抗学习在图像分割和超分辨率中的应用

【转】【Maven】Project configuration is not up-to-date with pom.xml错误解决方法

基本数据类型与常量池

部署自己的Intell项目的经历

每日归档

更多

2024-06-07(0)

2024-06-06(0)

2024-06-05(0)

2024-06-04(10)

2024-06-03(52)

2024-06-02(4)

2024-06-01(60)

2024-05-31(47)

2024-05-30(4)

2024-05-29(65)