Alibaba Cloud Data Integration Platform Tutorial

Data Integration is a reliable, secure, low-cost, and elastically scalable data synchronization platform provided by Alibaba Group that can cross heterogeneous data storage systems. It provides offline ( Full/incremental) data entry and exit channel is a stable, efficient and elastically scalable data synchronization platform provided by Alibaba Group. Committed to providing high-speed and stable data movement and synchronization capabilities between rich heterogeneous data sources in complex network environments.

About the use tutorial of Alibaba Cloud data integration platform:

Alibaba Cloud Data Integration Platform Tutorial

Introduction to offline (batch) data synchronization

The offline (batch) data channel mainly provides a set of abstract data extraction plug-ins (called Reader) and data writing plug-ins (called Writer) by defining data sources and data sets of data sources and destinations. This framework designs a simplified intermediate data transmission format, so as to achieve the purpose of data transmission between any structured and semi-structured data sources.

Supported data source types

Data integration provides rich data source support as follows:

  • Text storage (FTP / SFTP / OSS / multimedia files, etc.).
  • Database (RDS / DRDS / MySQL / PostgreSQL, etc.).
  • NoSQL(Memcache / Redis / MongoDB / HBase 等)。
  • Big data (MaxCompute / AnalyticDB / HDFS, etc.).
  • MPP database (HybridDB for MySQL, etc.).

See  Supporting Data Source Types for more details .

Notice:

Because the configuration information of each data source is quite different, you need to query the parameter configuration information in detail according to the usage. Therefore, detailed descriptions are provided on the data source configuration and job configuration pages, please query and use according to your own situation.

Synchronous development instructions

Synchronous development provides two development modes: wizard mode and script mode.

  • Wizard mode: Provide wizard-style development guidance, help to quickly complete the configuration of data synchronization tasks through visual filling and next-step guidance. The learning cost of wizard mode is low, but some advanced functions cannot be enjoyed.

  • 脚本模式:您可以通过直接编写数据同步的 JSON 脚本来完成数据同步开发,适合高级用户,学习成本较高。脚本模式可以提供更丰富灵活的能力,做精细化的配置管理。

注意:

  • 向导模式生成的代码可以转换为脚本模式,此转换为单向操作,转换完成后无法恢复到向导模式。因为脚本模式能力是向导模式的超集。

  • 代码编写前需要完成数据源的配置和目标表的创建。

  • 网络类型说明

网络类型分为:经典网络、专有网络(VPC)、本地 IDC 网络(规划中)。

  • 经典网络:统一部署在阿里云的公共基础网络内,网络的规划和管理由阿里云负责,更适合对网络易用性要求比较高的客户。

  • 专有网络:基于阿里云构建出一个隔离的网络环境。您可以完全掌控自己的虚拟网络,包括选择自有的 IP 地址范围,划分网段,以及配置路由表和网关。

  • 本地 IDC 网络:您自身构建机房的网络环境,与阿里云网络是隔离不可用的。

经典网络和专有网络相关问题请参见 经典网络和 VPC 常见问题 FAQ 

补充说明:

  • 网络连接可以支持公网连接,网络类型选择经典网络即可。需要注意公网带宽的速度和相关网络费用消耗。无特殊情况不建议使用。

  • 规划中的网络连接,进行数据同步,可以使用本地新增运行资源 + 脚本模式的方案进行数据同步传输。或者使用 SHELL + DataX 方案,此方案请参见 使用 shell 执行 datax 任务

  • 专有网络 VPC 是构建一个隔离的网络环境,可以自定义 IP 地址范围、网段、网关等随着专有网络安全性提高,专有网络运用越来越广,所以数据集成提供了 RDS-MySQL、RDS-SQL Server、RDS-PostgreSQL,在专有网络下不需要购买一台跟 VPC 同网络的 ECS,系统通过反向代理会自动检测从而网络能够互通。对于阿里云其他的数据库 PPAS、OceanBase、Redis、MongoDB、Memcache、TableStore、HBase 等,后续也会提供支持。所以非 RDS 的数据源在专有网络下配置数据集成的同步任务需要购买同网络的 ECS,这样可以通过 ECS 连通网络。
约束与限制
  • 支持且仅支持结构化(例如 RDS、DRDS 等)、半结构化、无结构化(OSS、TXT 等,要求具体同步数据必须抽象为结构化数据)的数据同步。换言之,Data Integration 支持传输能够抽象为逻辑二维表的数据同步,其他完全非结构化数据,例如 OSS 中存放的一段 MP3,Data Integration 暂未支持将其同步到 MaxCompute,这个功能会在后期实现。

  • 支持单个和部分跨 region 地域内数据存储相互同步、交换的数据同步需求。

    部分地域通过经典网络是可以传输的,不能保证。如果必须使用且测试经典网络不通,可以考虑使用公网方式连接。

  • 仅完成数据同步(传输),本身不提供数据流的消费方式。

更多精品课程:

7天玩转云服务器

云数据库Redis版使用教程

玩转云存储对象存储OSS使用入门

阿里云CDN使用教程

负载均衡入门与产品使用指南

阿里云大学官网(阿里云大学 - 官方网站,云生态下的创新人才工场

Guess you like

Origin http://43.154.161.224:23101/article/api/json?id=324806553&siteId=291194637