亚马逊云科技正在努力构建一个完全无需ETL的未来

亚马逊云科技合作伙伴网络大使计划,吸纳拥有多项亚马逊云科技认证和深入亚马逊云科技知识的合作伙伴成员,协助其成为各个领域的技术专家,开发可供公众使用的内容,如技术写作、博客、开源项目,宣传亚马逊云科技及其合作伙伴。下面就从数据和数据性能两方面详细解读。

云原生的数据基础设施

首先,在云原生的数据基础设施方面,亚马逊云科技新增了Amazon Athena for Apache Spark和Amazon Redshift Integration for Apache Spark两个数据服务,让运行复杂数据分析的用户拥有了更多的选择,亚马逊云科技用户可以同时在Amazon EMR、Glue、SageMaker、Redshift、Athena五个服务中使用Apache Spark运行他们的数据分析任务。

数据性能提升

数据性能提升方面,Amazon DocumentDB新推出了Elastic Cluster功能,用户可以利用MongoDB分片API创建大小可达数PB的可扩展集合,弹性扩展文档数据库,以凭借PB级存储处理每秒数百万次读写操作。同时Amazon RDS推出了Optimized Writes和Optimized Reads功能,用户可以在不支付额外费用的情况下获得2倍的写入性能提升和50%的查询性能提升。

自2014年亚马逊云科技推出第一款无服务器架构服务Amazon Lambda以来,亚马逊云科技一直致力于无服务器架构服务的研发与推广,无服务器架构是云原生应用架构的重要组成部分。本次re:Invent 2022,亚马逊云科技又新推出了Amazon OpenSearch Serverless版本。至此,亚马逊云上的所有数据分析服务都可以支持服务器架构的方式为客户提供数据服务。

值得一提的是,Amazon RDS新增了蓝绿部署的功能,蓝绿部署创建了一个完全托管的暂存环境,用户可以在其中部署和测试生产更改,从而确保当前生产数据库的安全,可帮助用户更安全、更简单、更快速地更新Amazon Aurora和Amazon RDS数据库。数据可靠性方面,Amazon Redshift也推出了多可用区的部署方式,帮助客户在不改变业务程序的情况下保证业务连续性。

其中关于云原生数据战略,本次大会推出的DataZone和Zero ETL则成为了业界亮点,进一步为数据一体化融合扫清了障碍。亚马逊云科技数据与机器学习副总裁Swami在Keynote演讲中针对云原生数据战略提出的三个核心观点:

  • 需要能够应对所有未来情况的策略与云原生数据基础设施;

  • 需要有组织把它们连接起来,打破壁垒实现数据一体化融合;

    扫描二维码关注公众号,回复: 14726753 查看本文章
  • 需要好的工具与措施来实现数据的普惠。

这就是亚马逊云科技云原生数据战略的核心,亚马逊云科技可以提供端到端的数据服务,Data Zone和Zero ETL在其中就发挥了很重要的作用。DataZone通过统一的数据分析门户协作处理数据项目,提供所有数据的个性化视图,同时执行治理和合规性策略,而且组织中的每个人都可以访问数据。

有了DataZone,就可以将合适的人员以及需要的数据添加进来,根据这些个性化视图做出产品投资决策等。这样管理、分享以及访问使用这些数据会更加便捷,大大提升效率。

当前,客户管理的数据既庞大又复杂,这意味着他们不能只用单一技术或几个工具来分析和探索这些数据。在此次2022亚马逊云科技re:Invent全球大会上发布的新功能将帮助客户迈向一个“Zero ETL的未来”,借助Zero ETL减少在不同服务间手动迁移或转换数据的工作。无论企业和数据的规模有多大,复杂度有多高,通过为客户消除ETL和其它数据迁移任务,将助力客户专注于分析数据,面向业务获取新的洞察。

本次2022亚马逊云科技re:Invent全球大会宣布同时多个ETL服务来帮助用户快速实现Zero ETL,Amazon Redshift推出流式注入和auto-copy from S3,更加方便快速地将流式数据和S3中的数据注入Amazon Redshift数据仓库中。同时Amazon Aurora Zero ETL可以与Amazon Redshift集成,可以在Redshift中实时地分析交易数据。这种集成将事务数据与分析功能结合在一起,消除了在Aurora和Redshift之间构建和管理自定义数据管道的所有工作。用户不必构建和维护复杂的数据管道来执行提取、转换和加载(ETL)操作。

针对如何方便地利用第三方SaaS应用的数据与数据湖和数仓结合,Amazon AppFlow支持客户将数据从第三方应用程序安全地传输到亚马逊云科技的服务,Amazon AppFlow新增了22个数据连接器,到目前为止已经可以支持超过50个第三方应用作为数据源将数据摄入亚马逊云数据湖或者数据仓库;同时,Amazon SageMaker Data Wrangler与AppFlow已经集成,并且可访问40多个数据源。

Zero ETL的出现不仅有效地解决了数据孤岛的问题,可以近乎0投入地实现数据融合,而且非常方便。亚马逊云科技坚信Zero ETL必将是最终目标,亚马逊云科技正在努力构建一个完全无需ETL的未来!

猜你喜欢

转载自blog.csdn.net/Discovering_/article/details/128733299
今日推荐