【2020版】大数据学习详细路线

什么是大数据？

大数据（BIG DATA）是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据的5V特点：VOLUME（大量）、VELOCITY（高速）、VARIETY（多样）、VALUE（低价值密度）、VERACITY（真实性）。

大数据学习路线大纲：

第一阶段：Java语言基础阶段

1.1 Java编程语言基本概述

1.1.1 计算机语言与编程概述 1.1.2 介绍Java生态圈……

1.2 Java基础语法

1.2.1 分支循环语句 1.2.2 if分支结构……

1.3 面向对象编程

1.3.1 软件的生命周期 1.3.2 软件的设计原则……

1.4 面向对象高级编程

1.4.1包 (package) 的管理与作用 1.4.2JavaBean规范……

1.5 Java中的常用类库

1.5.1包装类（Wrapper Class） 1.5.2装箱和拆箱……

1.6 枚举和异常类

1.6.1枚举定义和使用 1.6.2通过枚举的class文件查看底层实现……

1.7 Java数据结构和集合框架泛型

1.7.1数据结构举例剖析 1.7.2数组的定义和使用方式……

1.8 Java中的IO流

1.8.1File类的常用操作 1.8.2递归遍历文件夹……

1.9 Java中的多线程

1.9.1程序，进程，线程的关系详解 1.9.2线程的原理……

1.10 Java中网络编程和反射

1.10.1网络通讯协议 1.10.2网络七层协议……

1.11 Java8新特性

1.11.1Lambda表达式 1.11.2Java可以函数式编……

1.12 Java基础加强

1.12.1Tomcat介绍与搭建 1.12.2软件B/S和C/S……

第二阶段：Linux系统&Hadoop生态体系

01、 Linux入门

02 、常用基本命令

03 、系统管理

04 、Linux操作增强

05 、Linux shell编程

06 、Hadoop生态

07、分布式系统概述

08、 Hadoop入门

09、 Hadoop伪分布式

10、 Hadoop全分布式

11、 HDFS基本概念

12 、HDFS的应用开发

13、 HDFS的IO流操作

14 、NameNode工作机制

15、 DataNode工作机制

16、 Zookeeper入门

17 、Zookeeper详解

18 、HA框架原理

19、 Hadoop-HA集群配置

20 、MapReduce框架原理

21 、Shuffle机制

22、 Mapreduce案例一

23、 Mapreduce案例二

24 、Hive入门

25 、Hive DDL数据定义

26 、Hive分区表

27 、Hive分桶表

28、 Hive查询

29 、Hive的高级查询Join与排序

30 、Hive的函数

31、 Hive DML数据管理

32 、Hive文件存储

33、 Hive企业级调优

34 、Hive企业级调优二

35、 Hive企业级项目实战

36、 Flume详解

37、 Sqoop详解

38、 Hbase概念

39 、Hbase的操作

40 、Hbase整合

41 、Hbase的实战和优化

第三阶段：分布式计算框架

3.1 scala

3.1.1 安装idea配置环境变量 3.1.2 Maven本地库配置 3.1.3 JDK环境变量配置 3.1.4 idea版本配置……

3.2 Spark Core

3.2.1 大数据架构体系 3.2.2 架构详解 3.2.3 Spark集群介绍 3.2.4 Spark集群配置……

3.3 Spark SQL

3.3.1 Spark SQL的发展历史 3.3.2 Spark SQL的原理介绍 3.3.3 DataFrame概述 3.3.4 创建DataFrame的方式……

3.4 Spark Streaming

3.4.1 Spark Streaming概述 3.4.2 Spark Streaming的原理介绍 3.4.3 Spark Streaming与Storm对比 3.4.4 DStream的概念……

3.5 kafka

3.5.1 Kafka的基本概念3.5.2 Kafka的发展历史3.5.3 Kafka的应用背景3.5.4 JMS基础……

3.6 ElasticSearch

3.6.1 全文检索技术简介 3.6.2 ES安装配置入门 3.6.3 ES插件安装 3.6.4 ES基本操作……

3.7 Logstash

3.7.1 Logstash介绍 3.7.2 Input组件介绍 3.7.3 Filter组件介绍 3.7.4 Output组件介绍……

3.8 Kibana

3.8.1 Kibana介绍 3.8.2 Kibana环境准备 3.8.3 Kibana安装 3.8.4 Kibana演示……

3.9 Kibana

3.9.1 什么是NoSQL 3.9.2 NoSQL数据库的分类 3.9.3 Redis介绍 3.9.4 Redis发展历史……

第四阶段：大数据实战项目

4.1 互金领域

项目介绍：构建广告投放平台，进行广告投放业务，吸引潜在客户，推广产品，包含投放微服务平台、竞价模块、客户群体画像、千人千面推荐产品。

4.2 电商平台

项目介绍：埋点业务，进行用户细分画像、建立信用体系、进行线上各类活动。

4.3 共享单车

项目介绍：依据用户行为轨迹构成出行规律，根据用户群体出行规律、区域情况等动态调度用车情况。

4.4 工业大数据

项目介绍：国家电网_省级输／变电监控项目：监控线路的传感设备，确保设备安全、降低故障成本，动态监控线路、变电站二次设备工作情况、报警自动化。

4.5 交通

项目介绍：贵州交通厅，交通离线/实时监控项目：通过交通卡口采集实时数据，动态监控全省各道路通行和事故状况，避免拥堵、避免交通事故、精准测速、防止套牌和提供便捷最佳出行方案、预测拥堵系数，为各级提供最优道路规划方案。

4.6 旅游

项目介绍：安顺智慧旅游，整合各类旅游相关应用系统及信息资源，在公安、交通、工商等相关领域实现信息共享、协同合作，共同打造良性的旅游云生态系统。

第五阶段：大数据分析

5.1 Data Analyze数据分析基础

5.1.1 AI&&机器学习&&深度学习概论 5.1.2 数据科学……

5.2 工作环境准备

5.2.1 数据分析中常用的Python技巧 5.2.2 Python字符串操作……

5.3 数据可视化的概念与准则

5.3.1 Python Matplotlib库 5.3.2 Matplotlib架构……

5.4 Python机器学习

5.4.1 机器学习的基本概念 5.4.2 分类算法与回归算法……

5.5 选择模型

5.5.1 训练模型 5.5.2 测试模型……

5.6 构建树的过程

5.6.1 sklearn中决策树重要的参数 5.6.2 通过决策树可以得到特征的重要性得分……

5.7 网格搜索

5.7.1 10折交叉验证 5.7.2 模型评价指标及模型选择……

5.8 sklearn中有三类朴素贝叶斯算法

5.8.1 Bernoulli模型 5.8.2 Multinomial模型……

5.9 颜色特征

5.9.1 纹理特征 5.9.2 形状特征……

5.10 手写数字识别

5.10.1 人脸识别 5.10.2 物体识别……

5.11 文本的基本组成

5.11.1 Python常用文本处理函数（字符串操作） 5.11.2 正则表达式……

5.12 文本的基本组成

5.12.1 主题模型及LDA 5.12.2 隐含狄利克雷分布(Latent Dirichlet Allocation, LDA)……

千锋教育官方博客企业博客

发布了405 篇原创文章 · 获赞 259 · 访问量 87万+

私信关注