日均百亿级日志处理:微博基于 Flink 的实时计算平台建设

作者:微博广告数据平台

随着微博业务线的快速扩张,微博广告各类业务日志的数量也随之急剧增长。传统基于 Hadoop 生态的离线数据存储计算方案已在业界形成统一的默契,但受制于离线计算的时效性制约,越来越多的数据应用场景已从离线转为实时。微博广告实时数据平台以此为背景进行设计与构建,目前该系统已支持日均处理日志数量超过百亿,接入产品线、业务日志类型若干。

一.技术选型

相比于 Spark,目前 Spark 的生态总体更为完善一些,且在机器学习的集成和应用性暂时领先。但作为下一代大数据引擎的有力竞争者-Flink 在流式计算上有明显优势,Flink 在流式计算里属于真正意义上的单条处理,每一条数据都触发计算,而不是像 Spark 一样的 Mini Batch 作为流式处理的妥协。Flink 的容错机制较为轻量,对吞吐量影响较小,而且拥有图和


猜你喜欢

转载自yq.aliyun.com/articles/723877