大数据处理的挑战
随着企业数据的逐渐积累和增多,数据架构从单节点的关系型数据库,演进到分库分表,再演进到NoSQL及hadoop生态。hadoop生态百花齐放,没有统一的架构标准,目前用的比较多的是Lambda架构,该架构主要特点为流计算、批处理、在线存储独立的,通过pipline来连接。
大数据Lambda架构比较复杂,流、批、在线存储需要独立建设,同时需要构建数据pipline来做数据交换流动。
- 数据写入:批处理、流处理、在线存储需要分别写入数据。一方面流及批两层需要独立写入数据,同时很多业务明细数据也会直接写入类似HBase、Cassandra、mongoDB这样的在线存储系统。
- 数据交换:批处理、在线存储之间交换需要构建大量ETL批作业
- 数据质量:批处理、流处理、在线存储需要分别写入数据,会导致数据维护繁琐,不同写入链路的数据可能不