大数据中台组件学习笔记

1.Oozie是任务调度管理系统: 当然简单的可以用crontab表达式结合shell脚本作为任务调度管理系统

2.关系型数据库导入数据到大数据平台用sqoop和Canal ,  Sqoop适合关系数据库数据的批量导入,如果想实时导入关系数据库的数据,可以选择Canal。

Canal是阿里巴巴开源的一个MySQL binlog获取工具,binlog是MySQL的事务日志,可用于MySQL数据库主从复制,Canal将自己伪装成MySQL从库,从MySQL获取binlog。

而我们只要开发一个Canal客户端程序就可以解析出来MySQL的写操作数据,将这些数据交给大数据流计算处理引擎,就可以实现对MySQL数据的实时处理了。

3.前端埋点数据采集也是互联网应用大数据的重要来源之一,用户的某些前端行为并不会产生后端请求,比如用户在一个页面的停留时间、用户拖动页面的速度、用户选中一个复选框然后又取消了。这些信息对于大数据处理,对于分析用户行为,进行智能推荐都很有价值。但是这些数据必须通过前端埋点获得,所谓前端埋点,就是应用前端为了进行数据统计和分析而采集数据。

猜你喜欢

转载自www.cnblogs.com/zhangshitong/p/10624591.html