本篇文章主要整理了笔者学习大数据时整理的一些文章,文章是从环境搭建到整个大数据生态圈的常用技术整理,环境希望可以帮助到刚学习大数据到童鞋,大家在学习过程中有问题可以随时评论回复!
大数据生态圈涉及技术:
Hadoop、MapReduce、HDFS、Hive、Hbase、Spark、Scala、Python、Kafka、Flume、Sqoop、Zookeeper
大数据生态圈技术图:
一、大数据入门环境搭建整理(集群、环境配置)
3、CentOS7设置静态IP以及windows下ping不通虚拟机、虚拟机ping不通外网解决方案
5、Linux(CentOS7)设置主机名及IP映射(用于hadoop单机/伪分布式/分布式/集群配置)
6、Winodws下使用VMware克隆、移出、快照Linux系统
7、Linux下yum方式安装mysql 以及卸载mysql
8、linux(Centons7)下重置root密码超详细步骤
9、linux下配置ssh免密(用于Hadoop高可用集群)
10、Linux系统xshell安装上传下载文件命令rz sz
11、Linux下zookeeper单机、伪分布式、分布式环境搭建(本篇主要介绍分布式用于Hadoop高可用集群)
二、大数据入门系列教程合集(生态圈技术安装配置使用)
【Hadoop篇】
1、大数据入门教程系列之Hadoop环境搭建--Hadoop单机/伪分布式搭建配置
2、基于centons7安装配置apache hadoop(mac)
3、大数据入门教程系列之Hadoop环境搭建--Hadoop集群/分布式搭建配置
4、大数据入门教程系列之Hadoop环境搭建--Hadoop高可用集群搭建配置
5、大数据入门教程系列之Hadoop环境搭建--新建Hadoop用户
6、大数据入门教程系列之HDFS分布式文件系统--idea下使用java API操作HDFS分布式文件系统
7、大数据入门教程系列之mapreduce--idea下使用java API操作mapreduce完成wordcount案例
8、大数据入门教程系列之HDFS分布式文件系统--shell命令操作HDFS分布式文件系统
【Hive篇】
1、大数据入门教程系列之Hive环境搭建--Linux(Centons7)下配置安装Hive
【Hbase篇】
【Flume篇】
1、Centons7下安装配置Flume、Linux下安装配置Flume、Flume的简单使用示例、Flume整合Kafka使用
【Kafka篇】
1、Centons7下安装配置Kafka、Linux下安装配置Kafka
【Spark篇】
1、hadoop集群下spark环境配置并且完成wordcount案例
2、Spark中RDD的Value型Transformation算子操作(一)
3、Spark中RDD的Key-Value型Transformation算子操作(二)
三、大数据生态圈技术整理汇总(技术架构、原理、流程)
2、Hbase架构及工作原理、数据及物理模型、Hbase优化
3、Hbase常用优化、Hbae性能优化、Hbase优化经验总结
5、Kafka架构、Kafka核心组件、Kafka工作原理、Kafka应用场景
6、在idea下使用java将Log4j日志实时写入Kafka(Kafka实时日志写入)
四、大数据常见错误合集(环境搭建和实际项目操作)
1、windows下运行mapreduce报错Could not locate executable null bin winutils.exe in the Hadoop binaries 解决方案
2、windows下运行mapreduce报错The auxService mapreduce_shuffle do 解决方案
3、Hadoop HA 高可用集群启动报错 Encountered exception loading fsimage 解决方案
4、Hadoop HA 高可用集群格式化NameNode后启动没有DataNode
5、Hive启动hiveserver2报错:Could not open client transport with JDBC Uri解决方案
6、Hive2.x版本创建表报错:Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient
7、使用hive的beeline连接报错hadoop is not allowed to impersonate hadoop (state=08S01,code=0)解决方案
9、Hbase错误总结:Hbase连接不上Zookeeper
10、kafka启动报错is empty Please build the project first e.g. by running gradlew jar
五、大数据的离线和实时数据处理流程分析
1、
2、