Big Data learning direction
A large data base operation and maintenance of Linux
Linux lay the foundation for better learning Hadoop, hbase, NoSQL, Spark, Storm, docker, openstack and so on. Because companies
in the project to build or deploy basically use the Linux environment.
1) Linux System Overview |
6) Users and user group management |
Many beginners, the concept of big data is ambiguous, what big data is, what to do, when to learn, which is in accordance with what line to learn, learn where to complete the development, want to learn, I want to learn Welcome to the big data learning students qq group: 199 427 210, there are a lot of dry goods (zero-based combat and advanced classical) for everyone to share , and a senior lecturer at Tsinghua graduate of big data to you free lessons to share with currently the most complete big data-end real practical learning process system
Second, the large data development of core technologies - Hadoop 2.x from entry to the master
Cornerstone of big data: First, the HDFS distributed file system for storing huge amounts of data, whether it is Hive, HBase or Spark data stored thereon; the other is a distributed resource management framework
YARN, is Hadoop cloud operating system (also known as data system), and the cluster resource management framework MapReduce distributed data processing, resource scheduling and monitoring application Spark; distributed and parallel computing framework
MapReduce is currently the most commonly used is a massive parallel processing of the frame. Compile Hadoop 2.x, environmental structures, HDFS Shell use, YARN cluster resource management and task monitoring, MapReduce coding
process, the deployment manager distributed cluster (including high availability HA) must be mastered.
First, the acquaintance Hadoop 2.x 1) Big Data application development, prospects |
Second, and Hadoop 2.x 1) HDFS file system architecture, functionality, design |
Third, the senior Hadoop 2.x 1) Distributed 2.x deploy Hadoop |
Third, the Big Data development of core technologies - large data warehouse Hive
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行
运行。其优点是学习成本低,可以通类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
一、Hive 初识入门 1)Hive功能、体系结构、使用场景 |
二、Hive深入使用 1)Hive中的内部表、外部表、分区表 |
三、Hive高级进阶 1)Hive数据的存储和压缩 |
四、结合实际案例分析 1)依据业务设计表 |
四、大数据协作框架 - Sqoop/Flume/Oozie
Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL
,Oracle ,Postgres等)中的数据导进到关系型数据库中。Sqoop项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快速部
署,也为了让开发人员能够更快速的迭×××发,Sqoop独立成为一个Apache项目。
一、数据转换工具Sqoop 1)Sqoop功能、使用原则 |
二、文件收集框架Flume 1)Flume 设计架构、原理(三大组件) |
三、Oozie功能、安装部署 1)使用Oozie调度MapReduce Job和HiveQL |
五、大数据Web开发框架 - 大数据WEB 工具Hue
Hue是一个开源的Apache Hadoop UI系统,最早是由Cloudera Desktop演化而来,由Cloudera贡献给开源社区,它是基于Python Web框架Django实现的。通
过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduce Job等等。
1)Hue架构、功能、编译 |
4)Hue集成Hive、DataBase |
六、大数据核心开发技术 - 分布式数据库HBase从入门到精通
HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。HBase在
Hadoop之上提供了类似于Bigtable的能力,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大
规模结构化存储集群
一、HBase初窥使用 1)HBase是什么、发展、与RDBMS相比优势、企业使用 |
二、HBase 深入使用 1)HBase 数据存储模型 |
三、HBase 高级使用 1)如何设计表、表的预分区(依据具体业务分析讲解) |
四、进行分析 1)依据需求设计表、创建表、预分区 |
七、大数据核心开发技术 - Storm实时数据处理
Storm是Twitter开源的分布式实时大数据处理框架,被业界称为实时版Hadoop。 随着越来越多的场景对Hadoop的MapReduce高延迟无法容忍,比如网站统计、
推荐系统、预警系统、金融系统(高频交易、股票)等等, 大数据实时处理解决方案(流计算)的应用日趋广泛,目前已是分布式技术领域最新爆发点,而Storm更是
流计算技术中的佼佼者和主流。 按照storm作者的说法,Storm对于实时计算的意义类似于Hadoop对于批处理的意义。Hadoop提供了map、reduce原语,使我
们的批处理程序变得简单和高效。 同样,Storm也为实时计算提供了一些简单高效的原语,而且Storm的Trident是基于Storm原语更高级的抽象框架,类似于基于
Hadoop的Pig框架, 让开发更加便利和高效。本课程会深入、全面的讲解Storm,并穿插企业场景实战讲述Storm的运用。 淘宝双11的大屏幕实时监控效果冲击
了整个IT界,业界为之惊叹的同时更是引起对该技术的探索。 可以自己开发升级版的“淘宝双11”?
1)Storm简介和课程介绍 |
15)Storm事务案例实战之 ITransactionalSpout |
八、Spark技术实战之基础篇 -Scala语言从入门到精通
为什么要学习Scala?源于Spark的流行,Spark是当前最流行的开源大数据内存计算框架,采用Scala语言实现,各大公司都在使用Spark:IBM宣布承诺大力推进
Apache Spark项目,并称该项目为:在以数据为主导的,未来十年最为重要的新的开源项目。这一承诺的核心是将Spark嵌入IBM业内领先的分析和商务平台,
Scala具有数据处理的天然优势,Scala是未来大数据处理的主流语言
1)-Spark的前世今生 |
11)-Scala编程详解:Map与Tuple |
九、大数据核心开发技术 - 内存计算框架Spark
Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点。启用了内存分布数据集,除
了能够提供交互式查询外,它还可以优化迭代工作负载。Spark Streaming: 构建在Spark上处理Stream数据的框架,基本的原理是将Stream数据分成小的时间片断
(几秒),以类似batch批量处理的方式来处理这小部分数据
1)Spark 初识入门 |
10)案例分析 |
十、大数据核心开发技术 - Spark深入剖析
1)Scala编程、Hadoop与Spark集群搭建、Spark核心编程、Spark内核源码深度剖析、Spark性能调优 |
十一、企业大数据平台高级应用
完成大数据相关企业场景与解决方案的剖析应用及结合一个电子商务平台进行实战分析,主要包括有: 企业大数据平台概述、搭建企业
大数据平台、真实服务器手把手环境部署、使用CM 5.3.x管理CDH 5.3.x集群
1)企业大数据平台概述 |
9)真实服务器手把手环境部署 |
十二、项目实战:驴妈妈旅游网大型离线数据电商分析平台
离线数据分析平台是一种利用hadoop集群开发工具的一种方式,主要作用是帮助公司对网站的应用有一个比较好的了解。尤其是在电商、旅游、银行、证券、游戏
等领域有非常广泛,因为这些领域对数据和用户的特性把握要求比较高,所以对于离线数据的分析就有比较高的要求了。 本课程讲师本人之前在游戏、旅游等公司
专门从事离线数据分析平台的搭建和开发等,通过此项目将所有大数据内容贯穿,并前后展示!
1)Flume、Hadoop、Hbase、Hive、Oozie、Sqoop、离线数据分析,SpringMVC,Highchat |
十三、项目实战:基于1号店的电商实时数据分析系统
1)全面掌握Storm完整项目开发思路和架构设计 |
6)灵活运用HBase作为外部存储 |
十四、项目实战:基于美团网的大型离线电商数据分析平台
本项目使用了Spark技术生态栈中最常用的三个技术框架,Spark Core、Spark SQL和Spark Streaming,进行离线计算和实时计算业务模块的开发。实现了包括用
户访问session分析、页面单跳转化率统计、热门商品离线统计、 广告点击流量实时统计4个业务模块。过合理的将实际业务模块进行技术整合与改造,
该项目完全涵盖了Spark Core、Spark SQL和Spark Streaming这三个技术框架中几乎所有的功能点、知识点以及性能优化点。 仅一个项目,即可全面掌握Spark
技术在实际项目中如何实现各种类型的业务需求!在项目中,重点讲解了实际企业项目中积累下来的宝贵的性能调优 、troubleshooting以及数据倾斜解决方案等知识和技术
1)真实还原完整的企业级大数据项目开发流程: |
2)现场Excel手工画图与写笔记:所有复杂业务流程、架构原理 |
十五、机器学习及实践
基于PyMC语言以及一系列常用的Python数据分析框架,如NumPy、SciPy和Matplotlib,通过概率编程的方式,讲解了贝叶斯推断的原理和实现方法。
该方法常常可以在避免引入大量数学分析的前提下,有效地解决问题。课程中使用的案例往往是工作中遇到的实际问题,有趣并且实用。回归等算法有较为深入的了解,以Python编程语言为基础,在不涉及大量数学模型与复杂编程知识的前提下,熟悉并且掌握当下最流行的机器学习算法,如回归、决策树、SVM等,并通过代码实例来 展示所讨论的算法的实际应用。
1)Mahout、Spark MLlib概述 |
8)随机森林及Mahout、SparkMllib案例 |
十六、推荐系统
开发推荐系统的方法,尤其是许多经典算法,重点探讨如何衡量推荐系统的有效性。课程内容分为基本概念和进展两部分:前者涉及协同推荐、基于
内容的推荐、基于知识的推荐、混合推荐方法,推荐系统的解释、评估推荐系统和实例分析;后者包括针对推荐系统的***、在线消费决策、推荐系统和下一代互联网以及普适环境中的推荐
1)协同过滤推荐 |
5)推荐系统的解释 |
十七、分布式搜索引擎Elasticsearch开发
联网+、大数据、网络爬虫、搜索引擎等等这些概念,如今可谓炙手可热
1)Elasticsearch概念 |
5)Elasticsearch索引和Mapping |
十八、大数据高并发系统架构实战方案(LVS负载均衡、Nginx、共享存储、海量数据、队列缓存 )
随着互联网的发展,高并发、大数据量的网站要求越来越高。而这些高要求都是基础的技术和细节组合而成的。
十九、大数据高并发服务器实战
随着Web技术的普及,Internet上的各类网站第天都在雪崩式增长。但这些网站大多在性能上没做过多考虑。当然,它们情况不同。有的是Web技术本身的原因(主
要是程序代码问题),还有就是由于Web服务器未进行优化。不管是哪种情况,一但用户量在短时间内激增,网站就会明显变慢,甚至拒绝放访问。要想有效地解决
这些问题,就只有依靠不同的优化技术。本课程就是主要用于来解决大型网站性能问题,能够承受大数据、高并发。主要涉及 技术有:nginx、tomcat、memcached、redis缓存、负载均衡等高级开发技术
大数据分析、数据可视化
二十、Tableau商业智能与可视化应用实战
Tableau的数据连接与编辑、图形编辑与展示功能,包括数据连接与管理、基础与高级图形分析、地图分析、高级数据操作、基础统计分析、如何与R集成进行高级分析、分析图表整合以及分析成果共享等主要内容。
1)什么是数据可视化? |
12)工作表 |
二十一、Echarts从入门到上手实战
对数据可视化技术有一个全面、系统、深入的了解,最终达到能够利用Echarts图表结合后端数据进行前端可视化报表展示的目的,
1)数据可视化概述 |
11)Echarts3.x与Echarts2.x的区别 |
二十二、Vue.js快速上手
Vue.js是一套构建用户界面的轻量级MVVM框架,与其他重量级框架不同的是, Vue.js 的核心库只关注视图层,并且非常容易学习,很容易与其它前端技术或已有的项目整合。 本课程主要分两部分讲解:1.掌握Vue.js设计规范的语法;
1)Vue.js简介和MVC、MVP以及MVVM架构 |
18)事件修饰符 |