总结大数据采集的一些见解 - 代码天地

总结大数据采集的一些见解

其他 2019-03-24 14:11:04 阅读次数: 0

1.首先，在我看来，基本上根据数据的流向自底向上划分五层，跟传统的数据仓库其实很类似，数据类的系统，概念上还是相通的，分别为五个：数据采集层、数据处理层、数据分析层、数据访问层及应用层。

2.数据采集层：由于数据源的多样性，很多时候我们采集的工具可能不止一个。大数据平台架构跟传统数据仓库有一个不同，就是同一层次，为了满足不同的场景，会采用更多的技术组件，体现百花齐放的特点。既包括传统的ETL离线采集、也有实时采集、互联网爬虫解析等等。

基于这个问题，网上有很多开源的技术：http://www.raincent.com/content-85-5632-2.html

对于数据爬虫可以参考下这里的思想：https://blog.csdn.net/prom1201/article/details/50972427

总的来说，采集层至少达到多样化数据采集能力、可视化快速配置能力、统一调度管控能力这三个要求。

3.数据处理层：根据数据处理场景要求不同，可以划分为HADOOP、MPP、流处理等等。应该大多数做过数据处理的应该都知道，数据处理过程中会使用各种各样的计算框架，总的来说分为：离线处理、实时处理、流处理、定时处理。

4.数据分析层：主要包含了分析引擎。接触到过NLP自然语言处理，命名实体识别等，总的来说，习惯使用的是spark进行批处理数据。

5.数据访问层：实时查询、多维查询、常规查询。常规查询相信大家做到实时都不陌生，就是普通的关系型数据库的使用。如果说到实时查询，觉得ClickHouse就是不错的选择，在此基础上也可以进行许多建模。在Hive更多的是进行数据预处理吧。

6.数据应用层：实现数据的管理和运维。包括实时数据变动日志更新等，对于这方面不是很清楚。

7.具体的架构思想可以参考：https://www.jianshu.com/p/e56d2e732885

以下是一些阅读过的文档，附：

1.https://max.book118.com/html/2017/1122/141127382.shtm

2.https://max.book118.com/html/2018/1001/8077124047001125.shtm

3.https://max.book118.com/html/2018/1003/6235013130001221.shtm

猜你喜欢

转载自blog.csdn.net/BAStriver/article/details/88247505

总结大数据采集的一些见解

ButterKnife的一些见解

cache架构上的一些新见解

对spring-webflow的一些见解

RBAC权限模型的一些见解

对Git 操作的一些见解

对CDQ分治的一些见解

关于Java里的volatile的一些见解

关于getClass()的一些自己的见解

android JNI的一些方法见解

nginx的并发的一些见解

异常处理的一些见解

关于php缓存技术一些见解

C语言指针概念的一些见解

JAVA线程池的一些见解

wx.chooseImage的一些见解

软件定位的一些见解

关于JDBC入门和一些见解

关于同步机制的一些见解

关于职称评审的一些见解

jvm调优的一些见解

欧拉函数的一些见解

关于CAP理论自己的一些见解

对自动化测试的一些见解

关于UniTask的一些见解

mysql的一些小见解

对抗生成网络GANs的一些见解(一)

关于QQ农场牧场等曾经流行的游戏的一些见解

关于sql注入语句闭合的一些见解

互联网大环境下一些思考和见解

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)