2020-05-16: 记一次Cloudera厂商来介绍CDP7有感

时间:2020-05-14

天气:阴

坐标:上海杨浦区

-----------------------------------------------------------------------

背景:

      很多人都知道,Cloudera和Hortonworks两大hadoop服务商在2018年国庆节期间合并了,当时的新闻:点击

      我当时还转发了这个新闻,真的惊讶,这还让MapR怎么活? 后面果然MapR也HPE收购了。。不得不说HPE这波操作真的迷,典型的抱团取暖,笔者曾就职于HP,见证了HP的拆、拆、拆分历史,不免有些唏嘘。

      当时在hp的时候我们的项目还在使用HDP集群,那个年代,hive on tez 配合orc存储和SparkSQL,已经可以在大数据平台实现现在很多供应商所说的HTAP了,当时我们使用sqoop+pig+tez+hive+oozie+falcon跑批,用phoenix+hbase+kafka+spark跑流任务。那时候觉得orc+hive+hplsql真好用,比vertica好用太多太多,相信每个曾在HP做过的人都吐槽过vertica吧。。

后来在现在的公司接触CDH集群,第一次用到impala,任务量一上去,经常会爆内存,后来还专门了解了impala的优化。impala对于orc格式仅能做到只读,不过Cloudera也有kudu作为他们介于OLAP和OLTP之间的产物供使用,实际使用效果也不错。

      两家合并后半年的时间 CDF就出现了,当时厂商来的时候我还挺纳闷,这么快就出新产品了,好牛!结果来介绍才发现,这不就是nifi吗。。。

     果然这次CDP7的介绍,对我来说没有惊喜,不会像从CDH5升级CDH6一样令人开心,CDH6目前使用感受不错,偶尔有小BUG也还能忍受。 CDH5里很多组件版本太老,很多企业在线上使用CDH5好多年可能都不敢升级了,当然也可以自己安装高版本的应用,但不享受厂商的售后服务。CDP7相比于CDH6整体停下来就是想告诉我们一句话 "上云!" 

思考:

整个会议,厂商一直在围绕"云" 大谈特谈,支持公有云,私有云,本地 部署方式。

国外有AWS,Azure,Google,国内有阿里,腾讯,华为,很遗憾,CDP7目前只支持AWS和Azure,跟国内云厂商还没谈好合作,所以国内公有云 短期内是没别惦记了。

厂商的人在介绍的时候balabala说了一堆存储计算分离和对象存储的好处,问一句Ozone什么时候支持,副本策略是什么,支不支持纠删码,接口兼容性怎么样了。 其实大家都知道Ozone现在还不够好,我问这个也是不想听他一直吹,给我们画饼,果然他告诉我们Ozone要等到CDP7.2才能支持。

再来说说私有云,CDP7的私有云的前提是先部署CDP7的数据中心版本,也就是跟CDH6类似的安装部署方式,本地部署。数据存储方式还是HDFS,暂不支持Ozone对象存储。然后私有云部署方式相比于数据中心版有什么好处呢,是DevOps还是存储计算分离? 消耗更大的网络带宽换来的优势是否值得还需要再好好思考一番。

最后就是数据中心版本CDP-DC, 我们也可以叫他CDH7,本质上就是对CDH6进行了组件的升级,将部分CDH的组件替换成HDP的组件,比如sentry变成了ranger,navigator变成了atlas, hive2升级到hive3。 其他的组件都大差不差,和CDH6.3相比区别不大。

升级的时候,sentry的权限如何同步到ranger,是否有风险? 目前仅支持从CDH5升级到CDP7。。。 还不支持CDH6升级CDP7。

HDFS的小文件问题被大家诟病,Ozone对象存储也是千呼万唤始出来,然而有点晚了。云厂商发展的太快,包装好的服务拿来直接就能用,CDH和HDP斗了那么久,各自都造了不少轮子,合并之后也开始把功能重叠的做替换,好想感叹一句"大数据的轮子咋就那么多呢?"  DeltaLake、Hudi、Iceberg还没整明白呢,那边一下子冒出好多HTAP的数据库厂商。光是看我的专栏列表就知道,咋那么多功能重叠的组件呢,唉! 愿hadoop生态越来越好越来越好纯净。

周末吐槽一下,该学的东西还是要学。。以前太懒,不更博客,最近受到杨秀璋老师的影响,更新变的勤快了,希望自己能坚持下去。

猜你喜欢

转载自blog.csdn.net/wsdc0521/article/details/106158726