hadoop新手视频教程培训大数据 hadoop新手快速入门实战教程

什么是hadoop。

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

其中文名是海杜普,Hadoop的全称则是Hadoop Distributed File System。

用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

Hadoop由 Apache Software Foundation 公司于 2005 年秋天作为Lucene的子项目Nutch的一部分正式引入。它受到最先由 Google Lab 开发的 Map/Reduce 和 Google File System(GFS) 的启发。

2006 年 3 月份,Map/Reduce 和 Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目中。

Hadoop 是最受欢迎的在 Internet 上对搜索关键字进行内容分类的工具,但它也可以解决许多要求极大伸缩性的问题。例如,如果要 grep 一个 10TB 的巨型文件,会出现什么情况?在传统的系统上,这将需要很长的时间。但是 Hadoop 在设计时就考虑到这些问题,采用并行执行机制,因此能大大提高效率。

Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。

而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。

HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。

Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。

视频下载地址:

第一天        hadoop的基本概念  伪分布式hadoop集群安装  hdfs mapreduce 演示

  01-hadoop职位需求状况.avi

  02-hadoop课程安排.avi

  03-hadoop应用场景.avi

  04-hadoop对海量数据处理的解决思路.avi

  05-hadoop版本选择和伪分布式安装.avi

  06-hadoop版本选择和伪分布式安装2.avi

  07-hdfs&mapreduce测试.avi

  08-hdfs的实现机制初始.avi

  09-hdfs的shell操作.avi

  10-hadoop集群搭建的无密登陆配置.avi

第二天  hdfs的原理和使用操作、编程

  01-NN元数据管理机制.avi

  02-NN工作机制2.avi

  03-DN工作原理.avi

  04-HDFS的JAVA客户端编写.avi

  05-filesystem设计思想总结.avi

  06-hadoop中的RPC框架实现机制.avi

  07-hadoop中的RPC应用实例demo.avi

  08-hdfs下载数据源码跟踪铺垫.avi

  09-hdfs下载数据源码分析-getFileSystem.avi

  10-hdfs下载数据源码分析-getFileSystem2.avi

第三天  mapreduce的原理和编程

  01-hdfs源码跟踪之打开输入流.avi

  02-hdfs源码跟踪之打开输入流总结.avi

  03-mapreduce介绍及wordcount.avi

  04-wordcount的编写和提交集群运行.avi

  05-mr程序的本地运行模式.avi

  06-job提交的逻辑及YARN框架的技术机制.avi

  07-MR程序的几种提交运行模式.avi

  08-YARN的通用性意义.avi

  09-yarn的job提交流程.avi

第四天  常见mr算法实现和shuffle的机制

  01-复习.avi

  02-hadoop中的序列化机制.avi

  03-流量求和mr程序开发.avi

  04-hadoop的自定义排序实现.avi

  05-mr程序中自定义分组的实现.avi

  06-shuffle机制.avi

  07-mr程序的组件全貌.avi

  08-textinputformat对切片规划的源码分析.avi

  09-倒排索引的mr实现.avi

  10-多个job在同一个main方法中提交.avi

第五天  hadoop2.x中HA机制的原理和全分布式集群安装部署及维护

  01-zookeeper.avi

  02-zookeeper2.avi

  03-NN高可用方案的要点1.avi

  04-hadoop-HA机制的配置文件.avi

  05-hadoop分布式集群HA模式部署.avi

  06-hdfs--HA测试.avi

  07-hdfs--动态增加节点和副本数量管理.avi

  08-HA的java api访问要点.avi

  09-hive入门.avi

第六天  hbase  hive

  01-复习ha相关.avi

  02-hive的元数据库mysql方式安装配置.avi

  03-hive的使用.avi

  04-hive的常用语法.avi

  05-hql语法及自定义函数.avi

  06-hbase表结构.avi

  07-hbase集群架构及表存储机制.avi

  08-hbase-shell.avi

  09-hbase的java api.avi

第七天  storm+kafka

  006-kafka整合storm.avi

  01-storm基本概念.avi

  02-storm编程规范及demo编写.avi

  03-storm的topology提交执行.avi

  04-kafka介绍.avi

  05-kafuka集群部署及客户端编程.avi

  06-kafka消费者java客户端编程.avi

第八天  实战项目

  01-项目背景及技术架构.avi

  02-主要技术选型.avi

  03-flume介绍及演示.avi

  04-行为轨迹增强处理流程.avi

  05-样本url筛选模块开发.avi

  06-行为轨迹增强模块1.avi

  07-行为轨迹增强模块2.avi

猜你喜欢

转载自www.cnblogs.com/kelinalove/p/10445985.html