MaxCompute Studio数据开发工具的使用

MaxCompute Studio简介

MaxCompute Studio在IntelliJ IDEA的基础上提供以下功能:

  • SQL编辑器(SQL Editor):提供SQL语法高亮、代码补全、实时错误提示、本地编译、作业提交等功能。
  • 项目空间浏览器(Project Explorer):连接MaxCompute项目空间,浏览项目空间表结构、自定义函数、资源文件。
  • 作业浏览器(Job Explorer):浏览、搜索MaxCompute的历史作业信息。
  • MaxCompute控制台(MaxCompute Console):集成了MaxCompute客户端,可以输入和执行MaxCompute客户端命令。
  • Studio集成了MaxCompute Tunnel工具,可以支持本地数据的上传和下载,更多详情请参见导入并导出数据。等。

更多MaxCompute Studio的介绍见:认识MaxCompute Studio

MaxCompute Studio开发环境的构建具体可以见文章:MaxCompute基础开发环境搭建 。

常用功能使用

  • MaxCompute Studio相关设置
  • MaxCompute Studio开发界面
  • 连接MaxCompute客户端
  • 管理MaxCompute数据和资源
  • MaxCompute SQL的开发、编译与执行
  •  使用MaxCompute Studio开发Java程序

MaxCompute Studio相关设置

打开MaxCompute Studio的设置页面。Mac环境下位于: IntelliJ IDEA > Perferences,如下:

针对这里的SQL的设置中,编译器模式可选:单句模式或脚本模式。其区别在于:

  • 单句模式(Statement Mode):在该模式下,编译器将SQL文件中的单条语句作为单元进行编译、提交。
  • 脚本模式(Script Mode):在该模式下,编译器将整个SQL文件作为单元进行编译、提交。 脚本模式有利于编译器和优化器最大程度地优化执行计划,提高整体执行效率。

MaxCompute Studio开发界面

MaxCompute Studio包含三个开发界面,分别是:SQL编辑器(SQL Editor),项目空间浏览器(Project Explorer)和作业浏览器(Job Explorer),显示如下:

这三个开发界面的主要功能如下:

  • SQL编辑器(SQL Editor):提供SQL语法高亮、代码补全、实时错误提示、本地编译、作业提交等功能。
  • 项目空间浏览器(Project Explorer):连接MaxCompute项目空间,浏览项目空间表结构、自定义函数、资源文件。
  • 作业浏览器(Job Explorer):浏览、搜索MaxCompute的历史作业信息。

连接MaxCompute客户端

MaxCompute中集成了MaxCompute的客户端,可以使用如下的方式打开一个项目空间的客户端:

管理MaxCompute数据和资源

包括查看表和函数,导入导出数据和可视化管理表三个部分。

1. 查看表和函数

在Project Exploer视图中,右键单击表名,选择Show Table Detail可以查看表的详细信息:

同样可以查看UDF相应的代码: 

2. 导入导出数据

MaxCompute Studio可以将CSV、TSV格式的本地数据文件导入至MaxCompute表中,也可将MaxCompute表中的数据导出到本地文件。 

使用前提:

  • 导入导出数据使用MaxCompute Tunnel服务,因此要求MaxCompute Studio中添加的MaxCompute项目必须开通或配置了Tunnel服务。
  • 导入导出使用的账号必须具备对应的MaxCompute表操作权限。

1. 导入数据

在Project Explorer页面的table&view列表下,右键单击需要导入数据的表名,选择Import data Into table 。

配置参数说明如下:

  • Input Files:导入数据文件的本地路径。
  • File charset:导入数据文件的编码格式。
  • Column Separator:列分隔符。
  • Record Limit:最大行数。
  • Size(MB) Limit:上传数据最大值。
  • Error Record Limit:容错行数。
  • Include Column Header:是否导入列标题。

单击OK,完成数据导入。提示Import Data Success,表示数据导入成功,可在表中查看导入的数据。

2. 导出数据

打开输入导出的界面:

数据导出时的相关配置与数据导入相同:

3. 可视化表管理

1. 新增表

在Project Explorer页面,右键单击项目下的Tables & View,选择Create a new table。

2. 修改表

在Project Explorer的table&view列表下,右键单击需要修改的表,选择Open table editor。

3. 删除表

MaxCompute SQL的开发、编译与执行

包括SQL Script文件的创建、编译SQL和执行SQL三部分。

1. SQL Script文件的创建

在创建MaxCompute Studio项目时,勾选了SQL Support:

会自动在项目中创建script目录,直接在该目录下进行创建SQL脚本文件即可:

如果已有script文件,此时的创建项目方式可参考:创建MaxCompute Script Module

2. 编译SQL

在SQL脚本提交前,您可以根据自己的需要设置相关编译参数。MaxCompute Studio提供了丰富的功能,可以在编辑器上方的工具栏中快速设置。

设置参数主要分为以下3种:

  • 编辑器模式:
    • 单步模式:将提交的脚本按英文分号(;)分隔,逐条提交到MaxCompute服务端执行。
    • 脚本模式:将整个脚本一次性提交到MaxCompute服务端,由服务端提供整体优化,效率更高。推荐您使用此模式。
  • 类型系统:类型系统主要解决SQL语句的数据类型兼容性问题。分为以下3种类型:
    • 旧有类型系统:原有MaxCompute的类型系统。即MaxCompute 1.0数据类型版本。
    • MaxCompute 类型系统:MaxCompute 2.0引入的新的类型系统。即MaxCompute 2.0数据类型版本。
    • Hive 类型系统:MaxCompute 2.0引入的Hive兼容模式下的类型系统。即Hive兼容数据类型版本。
  • 编译器版本:
    • 默认编译器:稳定版本。
    • 实验性编译器:包含编译器最新特性。

3. 执行SQL

在SQL任务运行前,IDEA会向您提示预估的SQL费用。确认费用后,在Confirmation对话框中,单击OK。

执行完毕后,结果显示形式如下:

使用MaxCompute Studio开发Java程序

这部分内容比较多,单独一篇文章进行说明:https://blog.csdn.net/yitian_z/article/details/105544937(更新中)。

发布了330 篇原创文章 · 获赞 71 · 访问量 4万+

猜你喜欢

转载自blog.csdn.net/yitian_z/article/details/105540347