《大数据技术体系详解》笔记(一)

大数据技术体系

1、概述

企业级大数据体系

在这里插入图片描述

Google大数据技术栈

在这里插入图片描述

Hadoop与Spark开源大数据技术栈

大数据架构

在这里插入图片描述

2、关系型数据库采集

Sqoop1架构

在这里插入图片描述

Sqoop2架构

在这里插入图片描述

CDC(增量数据收集)

应用场景

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-40HtXm1F-1598188815528)(evernotecid://68BBA3F9-A8CA-412E-B81E-C2077D79C39E/wwwevernotecom/149333419/ENResource/p5015)]

开源实现Canal

在这里插入图片描述

多机房同步系统Otter

  • 基本原理
    在这里插入图片描述

  • S、E、T、L四阶段模型
    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-u1cdkZWr-1598188815530)(evernotecid://68BBA3F9-A8CA-412E-B81E-C2077D79C39E/wwwevernotecom/149333419/ENResource/p5157)]

  • 跨机房部署
    在这里插入图片描述

3、非关系型数据库采集

  • 非关系型数据指日志、网页、视频等数据。

Flume

基本思想和特点

  • 插拔式架构,已扩展
  • 各组件可定制化
  • 声明式配置
  • 语意路由
  • 内置事务,高可靠性

基本架构

Flume的数据流通过一系列Agent的组件构成,经过过滤、路由操作后,传递给下一个或多个Agent,直至目标系统。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GbKqGO3U-1598188815531)(evernotecid://68BBA3F9-A8CA-412E-B81E-C2077D79C39E/wwwevernotecom/149333419/ENResource/p5160)]

Agent构造

Agent内部由三个组件构成,分别是Source、Channel、Sink。

在这里插入图片描述

  1. Source
    从Client或上一个Agent接收数据,写入Channel。
    Flume提供了很多Source实现,包括
  • Avro Source
  • Thrift Source
  • Exec Source
  • Spooling Directory Source
  • Kafka Source
  • Syslog Source
  • Http Source
  • 自定义Source

2)Channel
缓冲区,暂存Source写入的数据,直到被Sink发送出去。
Flume提供了几种实现:

  • Memory Channel
    内存中缓存,性能高,断电数据易丢失,内存不足,Agent会崩溃。
  • File Channel
    磁盘文件缓存Event。
  • JDBC Channel
  • Kafka Channel

3) Sink
从Channel读取数据,发送给下一个Agent。
Flume提供以下几张实现:

  • HDFS Sink
  • HBase Sink
  • Avro/Thrift Sink
  • MorphineSolrSink/ElasticSearch Sink
  • Kafka Sink

Flume高阶组件

包括Interceptor、Channel Selector和Sink Processor
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-da8TNQQU-1598188815532)(evernotecid://68BBA3F9-A8CA-412E-B81E-C2077D79C39E/wwwevernotecom/149333419/ENResource/p5162)]

数据流构建方法

如何构建

1) 确定流式数据获取方式
2) 根据需求规划Agent
3) 设置每个Agent
4) 测试构建的数据流拓扑
5) 在生产环境部署该数据流拓扑

数据流获取方式
  • RPC
  • TCP或UDP
  • 执行命令
常见拓扑架构

1) 多路合并
在这里插入图片描述

2) 多路复用
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/nalw2012/article/details/108188819