总结大数据采集的一些见解

1.首先,在我看来,基本上根据数据的流向自底向上划分五层,跟传统的数据仓库其实很类似,数据类的系统,概念上还是相通的,分别为五个:数据采集层、数据处理层、数据分析层、数据访问层及应用层

2.数据采集层:由于数据源的多样性,很多时候我们采集的工具可能不止一个。大数据平台架构跟传统数据仓库有一个不同,就是同一层次,为了满足不同的场景,会采用更多的技术组件,体现百花齐放的特点。既包括传统的ETL离线采集、也有实时采集、互联网爬虫解析等等。

基于这个问题,网上有很多开源的技术:http://www.raincent.com/content-85-5632-2.html

对于数据爬虫可以参考下这里的思想:https://blog.csdn.net/prom1201/article/details/50972427

总的来说,采集层至少达到多样化数据采集能力、可视化快速配置能力、统一调度管控能力这三个要求。

3.数据处理层:根据数据处理场景要求不同,可以划分为HADOOP、MPP、流处理等等。应该大多数做过数据处理的应该都知道,数据处理过程中会使用各种各样的计算框架,总的来说分为:离线处理、实时处理、流处理、定时处理。

4.数据分析层:主要包含了分析引擎。接触到过NLP自然语言处理,命名实体识别等,总的来说,习惯使用的是spark进行批处理数据。

5.数据访问层:实时查询、多维查询、常规查询。常规查询相信大家做到实时都不陌生,就是普通的关系型数据库的使用。如果说到实时查询,觉得ClickHouse就是不错的选择,在此基础上也可以进行许多建模。在Hive更多的是进行数据预处理吧。

6.数据应用层:实现数据的管理和运维。包括实时数据变动日志更新等,对于这方面不是很清楚。

7.具体的架构思想可以参考:https://www.jianshu.com/p/e56d2e732885

以下是一些阅读过的文档,附:

1.https://max.book118.com/html/2017/1122/141127382.shtm

2.https://max.book118.com/html/2018/1001/8077124047001125.shtm

3.https://max.book118.com/html/2018/1003/6235013130001221.shtm

猜你喜欢

转载自blog.csdn.net/BAStriver/article/details/88247505