实训笔记7.11

7.11

7.11

一、座右铭

我的故事你说，我的文字我落，我值几两你定，我去何方我挑。

二、vmware安装操作系统的步骤

2.1 需要将windows上的一些资源打包成为一个容器

虚拟机连接网络分为三种

2.1.1 桥接网络

本机安装的操作系统可以被同一个局域网下的其他主机访问

桥接网络和我们的局域网的网络是在同一个网段下的

2.1.2 NAT网络

本地安装的操作系统只能被我们的主机访问到，同一个局域网下的其他主机无法访问的

NAT模式的网络使用的网段和局域网的网段不是同一个网段，网段就是vmnet8网卡提供的

2.1.3 仅主机网络

谁也无法访问

2.2 将镜像驱动和容器关联，开启就可以安装操作系统

三、Linux操作系统的网络基本操作

3.1 和网络有关的Linux操作

ip addr :查看Linux系统的IP地址的

ping 域名/ip地址 可以查看是否能访问某个网络

linux所有的网络配置都是在一个配置文件当中： /etc/sysconfig/network-scripts/ifcfg-ens33

ONBOOT="yes" 启用当前网卡

IPADDR="192.168.XX.XXX" 配置静态

IP GATEWAY="192.168.XX.2" 配置网关的

DNS1="114.114.114.114" 配置域名解析服务器

3.2 网络如果修改完成，需要重启Linux的网卡服务

systemctl restart network

3.3 网络服务

在Linux上还有一个网络服务NetworkManagaer,这个服务我们不需要，但是它是一直开启的，如果它是开启状态，会对我们的后续操作产生影响，因此这个服务我们要求关闭了并且永久禁用了

3.4 防火墙

Linux上还有一个服务叫做firewalld（防火墙的服务），最好把防火墙服务也给关闭了，我们后续的大数据软件安装会流畅一点。

systemctl stop firewalld

systemctl disable firewalld

3.5 Linux安装的节点服务器我们一般都是要起一个主机名，便于在集群当中找到唯一的一个主机

vim /etc/hostname

主机名更改完成需要重启虚拟机：reboot

shutdown now 关闭虚拟机

四、多主机之间的互相登录问题（主机ip的映射、SSH免密登录）

多主机之间互相登录的时候，需要使用ssh IP地址的命令进行登录，但是这个操作有两个问题

一个集群中可能有很多的节点，每个节点都有一个ip地址，ip不好记忆的
ssh在登录集群中其他节点的时候需要输入密码的

4.1 主机名和IP的映射配置：说的直白一点其实就是域名解析的配置

解决集群中多台节点的IP地址不容易记忆的问题，在安装操作系统的时候，我们就已经有意的给每一台节点起了一个独一无二的主机名，如果进行登录的时候，能根据主机名去自动识别IP地址

域名解析文件：

/etc/hosts

ip 域名

4.2 SSH的免密钥登录配置

免密钥登录的原理很简单，在当前节点上产生一个公钥和私钥文件，然后我们把公钥文件给其他节点分发一份，这样的话当前节点连接其他节点就不需要密码了

产生公钥和私钥文件
1. 切换到公钥和私钥文件的目录下： ~/.ssh
2. 产生公钥和私钥文件： ssh-keygen -t rsa
将公钥文件发送给需要免密登录到当前节点的其他节点

ssh-copy-id 主机名/IP

五、大数据时代下主要面临两个问题

5.1 海量数据的存储问题

5.2 海量数据的计算问题

5.3 google三篇论文

5.3.1 DFS

5.3.2 Map-Reduce

5.3.3 BigTable

六、Hadoop技术–脱自于google的三篇论文

把大数据中遇到的两个核心问题全部解决了

6.1 Hadoop内部的三个核心组件

6.1.1 HDFS：分布式文件存储系统

分布式思想解决了海量数据的存储问题
三个核心组件组成
1. NameNode：主节点
  1. 存储整个HDFS集群的元数据（目录结构）
  2. 管理整个HDFS集群
2. DataNode：数据节点/从节点存储数据的，DataNode以Block块的形式进行文件存储
3. SecondaryNameNode：小秘书——帮助NameNode合并日志数据的（元数据）

6.1.2 YARN：分布式资源调度系统

两个核心组件组成

ResourceManager：主节点

管理整个YARN集群的，同时负责整体的资源分配

NodeManager：从节点

真正负责进行资源提供的

主从架构的软件

6.1.3 MapReduce：分布式离线计算框架

分布式思想解决了海量数据的计算问题

6.1.4 Hadoop Common

6.2 Hadoop技术诞生的一个生态圈

数据采集存储——flume、kafka、hbase、hdfs
数据清洗预处理——MapReduce、Spark
数据统计分析——Hive、Pig
数据迁移——sqoop
数据可视化——echarts
zookeeper

6.3 课程主要围绕Apache的Hadoop发行版本来讲解

官网：https://hadoop.apache.org
apache hadoop发行版本
1. hadoop1.x
2. hadoop2.x
3. hadoop3.x
4. hadoop3.1.4

6.4 hadoop的安装的四种模式

hadoop软件中HDFS和YARN是一个系统，而且是一个分布式的系统，同时他们还是一种主从架构的软件。

第一种：本地安装模式—只能使用MapReduce，HDFS、YARN均无法使用

第二种：伪分布安装模式：hdfs和yarn的主从架构软件全部安装到同一个节点上

第三种：完全分布式安装模式：hdfs和yarn的主从架构组件安装到不同的节点上

第二种、第三种：单点故障问题

第四种：HA高可用安装模式：hdfs和yarn的主从架构组件安装到不同节点上，同时还需要把他们的主节点多安装两三个，但是在同一时刻只能有一个主节点对外提供服务

6.5 Hadoop的伪分布安装流程

需要在Linux上先安装JDK，Hadoop底层是基于Java开发的
配置当前主机的主机映射以及ssh免密登录

环境变量的配置主要有两个地方可以配置

1、/etc/profile:系统环境变量

2、~/.bash_profile：用户环境变量

3、环境变量配置完成必须重新加载配置文件 source 环境变量文件路径

安装本地版本的Hadoop
1. 上传
2. 解压
3. 配置环境变量
安装伪分布式版本的Hadoop——修改各种各样的hadoop配置文件即可
1. hadoop-env.sh 配置Java的路径
2. core-site.xml 配置HDFS和YARN的一些共同的配置项
  1. HDFS的NameNode路径
  2. HDFS集群存储的文件路径
3. hdfs-site.xml 配置HDFS的相关组件配置NameNode的web访问路径、DN的web访问网站，SNN的web访问路径等等。。。
4. mapred-env.sh 配置MR程序运行时的关联的软件（Java YARN）路径
5. mapred-site.xml 配置MR程序运行环境配置将MR程序在YARN上运行
6. yarn-env.sh 配置YARN关联的组件路径
7. yarn-site.xml 配置YARN的相关组件配置RM、NM的web访问路径等等
8. workers/slaves 配置HDFS和YARN的从节点的主机配置DN和NM在哪些节点上需要安装
格式化HDFS集群

hdfs namenode -format
启动HDFS和YARN
1. HDFS
  1. start-dfs.sh
  2. stop-dfs.sh
  3. 提供了一个web访问网站，可以监控整个HDFS集群的状态信息 http://ip:9870 hadoop3.x ip:50070 hadoop2.x
2. yarn
  1. start-yarn.sh
  2. stop-yarn.sh
  3. 提供了一个web网站，可以监控整个YARN集群的状态： http://ip:8088

七、Spark技术

解决了海量数据的计算问题

实训笔记7.11

实训笔记7.11

7.11

一、座右铭

二、vmware安装操作系统的步骤

2.1 需要将windows上的一些资源打包成为一个容器

2.1.1 桥接网络

2.1.2 NAT网络

2.1.3 仅主机网络

2.2 将镜像驱动和容器关联，开启就可以安装操作系统

三、Linux操作系统的网络基本操作

3.1 和网络有关的Linux操作

3.2 网络如果修改完成，需要重启Linux的网卡服务

3.3 网络服务

3.4 防火墙

3.5 Linux安装的节点服务器我们一般都是要起一个主机名，便于在集群当中找到唯一的一个主机

四、多主机之间的互相登录问题（主机ip的映射、SSH免密登录）

4.1 主机名和IP的映射配置：说的直白一点其实就是域名解析的配置

4.2 SSH的免密钥登录配置

五、大数据时代下主要面临两个问题

5.1 海量数据的存储问题

5.2 海量数据的计算问题

5.3 google三篇论文

5.3.1 DFS

5.3.2 Map-Reduce

5.3.3 BigTable

六、Hadoop技术–脱自于google的三篇论文

6.1 Hadoop内部的三个核心组件

6.1.1 HDFS：分布式文件存储系统

6.1.2 YARN：分布式资源调度系统

6.1.3 MapReduce：分布式离线计算框架

6.1.4 Hadoop Common

6.2 Hadoop技术诞生的一个生态圈

6.3 课程主要围绕Apache的Hadoop发行版本来讲解

6.4 hadoop的安装的四种模式

6.5 Hadoop的伪分布安装流程

七、Spark技术

八、Flink技术：计算框架

九、Storm技术：计算框架

猜你喜欢

实训笔记7.11

实训笔记7.11

7.11

一、座右铭

二、vmware安装操作系统的步骤

2.1 需要将windows上的一些资源打包成为一个容器

2.1.1 桥接网络

2.1.2 NAT网络

2.1.3 仅主机网络

2.2 将镜像驱动和容器关联，开启就可以安装操作系统

三、Linux操作系统的网络基本操作

3.1 和网络有关的Linux操作

3.2 网络如果修改完成，需要重启Linux的网卡服务

3.3 网络服务

3.4 防火墙

3.5 Linux安装的节点服务器我们一般都是要起一个主机名，便于在集群当中找到唯一的一个主机

四、多主机之间的互相登录问题（主机ip的映射、SSH免密登录）

4.1 主机名和IP的映射配置： 说的直白一点其实就是域名解析的配置

4.2 SSH的免密钥登录配置

五、大数据时代下主要面临两个问题

5.1 海量数据的存储问题

5.2 海量数据的计算问题

5.3 google三篇论文

5.3.1 DFS

5.3.2 Map-Reduce

5.3.3 BigTable

六、Hadoop技术–脱自于google的三篇论文

6.1 Hadoop内部的三个核心组件

6.1.1 HDFS：分布式文件存储系统

6.1.2 YARN：分布式资源调度系统

6.1.3 MapReduce：分布式离线计算框架

6.1.4 Hadoop Common

6.2 Hadoop技术诞生的一个生态圈

6.3 课程主要围绕Apache的Hadoop发行版本来讲解

6.4 hadoop的安装的四种模式

6.5 Hadoop的伪分布安装流程

七、Spark技术

八、Flink技术：计算框架

九、Storm技术：计算框架

猜你喜欢

4.1 主机名和IP的映射配置：说的直白一点其实就是域名解析的配置