Cloudera的新变化:混合数据平台、端到端AI、实时数据处理

作者 | 宋慧

出品 | CSDN云计算

数据的价值和技术应用,获得了全行业的关注、认可和重视。

不过,数据赛道百家争鸣,数据系统的技术与行业方案众多,对于开发团队和用户来说,其实仍然需要耗费大量调研和分析的时间。

近日,Gartner 云数据库魔力象限的领导者、混合数据系统厂商 Cloudera 举办了 2023 年客户大会,会上 IDC 分析师分享了对于数据系统市场与行业方案的最新趋势分析,Cloudera 则带来了最新的技术与应用方案,以及金融等行业应用案例。

在开发者群体的印象里,Cloudera 最知名的,是大数据 Hadoop 背后的商业技术公司,不过现在 Cloudera 已经进一步将自身定位为混合数据公司。据介绍,Cloudera 全球有超 10 亿美元营收,年增长率超过 100%,在全球 90 多个国家,管理总数据容量超过 25 艾字节,节点数量超过 50 万。并在 2022 年被 Gartner 评为魔力象限云数据库管理系统领域被评为领导者。

采访中,Cloudera 大中华区区域副总裁王刚也分享了 Cloudera 在中国市场的成绩,短短两年时间里,有 83%中国客户已经完成了(或部分完成,含逐步实施)CDP 升级。(2019 年,Cloudera 与 Hortonworks 合并后,对 CDH 和 HDP 两条产品线高度重合的部分删减和融合,推出新一代的数据平台 Cloudera Data Platform,简称 CDP。)

Cloudera 这些成绩,从侧面显示了数据系统市场的快速发展。对于数据系统发展趋势,IDC 中国研究总监卢言霞在接受 CSDN 采访时表示,云的普及以及对于数据的安全合规性要求,让数据系统在多云部署成为必然趋势。不过卢言霞也指出,不同行业、不同企业,数据规模与技术能力千差万别,除少数大型企业之外,“大部分企业仅处在数据平台和数仓建设阶段”。对于数据孤岛,烟囱式的数据系统现状与问题,卢言霞表示接下来或将有逻辑数据湖类的技术去解决。

 

会上,卢言霞详细分享了不同行业大数据建设的差异

现在的 Cloudera,则正是提供数据编织、湖仓一体、数据网格和未来数据生态系统架构要求的混合数据平台的混合数据平台。

 

Cloudera 混合数据平台

从图中我们能清晰看出,Cloudera 的混合数据平台可基于混合云与多云部署,提供数据编制编排后,统一提供 AI、BI、机器学习等数据分析与应用产品。

本次大会 Cloudera 也重点强调了 Cloudera 混合数据平台 CDP 对数据科学与 AI、机器学习的支持。例如 Cloudera Machine Learning(CML)可以为机器学习生命周期提供端到端的工作流程支持,以及覆盖从数据专家到数据分析师等各类用户的协作式、一体化商业智能与增强功能。

大会发布的另一个重要的技术点,是 Cloudera 在数仓和数据湖的基础上,新增了对实时数据的支持 DATA-IN-MOTION。其中包含三大块组件,分别是:

1、DATAFLOW:是通过 Apache NiFi,让开发人员可以连接各类节点、来源、结构类型的数据,处理加工并交付到各处,并通过低代码去实现。

2、STREAM PROCESSING:是通过 Apache Flink and Kafka,提供完整的企业级数据流管理,提供例如 SQL 等标准界面,让开发人员、数据分析师和数据科学家搭建各类实时的混合云应用。

3、CLOUDERA SDX:通过 Apache Ranger & Apache Atlas 工具,保证数据流安全可控,监控与有效治理。

另外在采访中,Cloudera 大中华区技术总监刘隶放特别分享了 Cloudera 在重点研发的三个技术领域与方向,值得重点提一下:

1、PVC DS - Data Service 私有云数据服务

适合新应用

• 内置工作负载隔离

• 价值实现时间加快 10 倍

• 数据中心基础设施减少约 50%

• 按应用自主升级

• 重新设计的管理和用户体验

适应现有应用

• 存储和 SDX 位于同一位置,统一的安全策略管理

• 查询性能最高可提高 5 倍

2、引入 Iceberg

Cloudera 实现开放的湖仓一体架构,在单一平台支持 AI、BI、ML 和数据工程。

对开源社区支持:

• 务实的方法与我们的 OSS 根源保持一致 开放的生态系统:

• 提供一个开放的生态系统来选择跨数据生命周期的最佳分析引擎

• 开放的生态系统 = 选择和减少锁定

对多元化社区:

• Apache Iceberg 提供多样化的社区支持

3、分布式、可扩展和高性能的对象存储 Ozone

扩展到数十亿个对象

• 解决小文件问题

• 通过支持 10B 对象移除 HDFS 规模限制

• 更轻松的操作,更快的重启和维护

提高存储密度

• 每个节点支持 400-600TB

• 纠删码将存储需求从 3 倍减少到 1.7 倍

• 每个集群最多支持 1 EB

AWS S3 API 兼容性

• 开放仓湖一体集成

• 混合数据管理基础

• 具有快速恢复功能的云原生双活架构

具体到行业场景的数据应用的需求各不相同,不过Cloudera的技术研发方向值得数据行业的技术开发者重点关注和参考。CSDN也将持续报道Cloudera与数据系统技术的最新发展。

猜你喜欢

转载自blog.csdn.net/FL63Zv9Zou86950w/article/details/130283841