대규모 데이터 리뷰의 전자 비즈니스 데이터 분석을위한 빅 데이터 기술 플랫폼의 _27_ 프레임 워크는 _01_ + 대규모 엔터프라이즈 응용 프로그램 데이터 프로젝트

데이터의 주요 검토의 프레임 워크 두 번째로 큰 기업 응용 프로그램 데이터


큰 데이터 구조를 불러

하둡
작업 다이어그램 또는 원사 원사 프레임 워크 또는 메커니즘 또는 작업 제출 방법 제출
공, 작업 제출 다이어그램


1, 원사 프레임 워크

2, 원사의 작동 메커니즘

3, 작업 제출 프로세스는 소스 그래픽을 해결하기 위해

셔플의 도입의 맵리 듀스 과정

  Shuffle 的本义是洗牌、混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随机越好。
  MapReduce 中的 Shuffle 更像是洗牌的逆过程,把一组无规则的数据尽量转换成一组具有一定规则的数据。
  为什么 MapReduce 计算模型需要 Shuffle 过程?我们都知道 MapReduce 计算模型一般包括两个重要的阶段:Map 是映射,负责数据的过滤分发;Reduce 是规约,负责数据的计算归并。
  Reduce 的数据来源于 MapMap 的输出即是 Reduce 的输入,Reduce 需要通过 Shuffle来 获取数据。
  从 Map 输出到 Reduce 输入的整个过程可以广义地称为 Shuffle。Shuffle 横跨 Map 端和 Reduce 端,在 Map 端包括 Spill 过程,在 Reduce 端包括 copy 和 sort 过程,如图所示:

링 버퍼 스케치


사육사
사용 사육사 모니터 서버 노드를 동적으로 대문자와 소문자

카프카에 저장 사육사 유지 보수 구조는 다음과 같습니다 :


수조

수로 에이전트 내부 원칙

수로 에이전트 중합

수로로드 밸런싱


카프카

카프카 워크 플로우 1

카프카의 워크 플로우 2

카프카 소비자 상위 및 하위 소비자


HBase를

HBase를 차트

HBase를 데이터 흐름 읽기

HBase를 쓰기 데이터 흐름


하이브
1, HQL 준비, 연습 (좋은 일을 작성해야합니다!! 슈퍼 중요한 쓰기! 제조 업체는 필수을 입력합니다 !!! 소 오프 네트워크 HQL 시험 : HTTPS : //www.nowcoder .COM / TA / SQL)
2, 하이브 튜닝 : HTTPS : //www.cnblogs.com/chenmingjun/p/10452686.html
. 3, 간단한 구조의 데이터웨어 하우스 + 이론적 개수


Sqoop
Sqoop 是一款开源的工具,主要用于在 Hadoop(Hive) 与传统的数据库 (mysql,postgresql,…) 间进行数据的高校传递,可以将一个关系型数据库(例如:MySQL,Oracle,Postgres等)中的数据导入到 Hadoop 的 HDFS 中,也可以将 HDFS 的数据导进到关系型数据库中。

Sqoop 的批量导入必须要会,面试经常要问。

DataX
是阿里开源的框架,支持很多数据源之间的转化。但是只开源了单节点的源代码,分布式的代码没有开源。

支持数据库如下:

 


Spark

二 大数据的企业应用

应用一:数据仓库的搭建
数据仓库各层图解

数据仓库涉及到的知识点

应用二:产品信息分析

应用三:用于行为分析

应用四:人工智能基础

추천

출처www.cnblogs.com/chenmingjun/p/10947445.html