实训笔记7.11

7.11

一、座右铭

我的故事你说,我的文字我落,我值几两你定,我去何方我挑。

二、vmware安装操作系统的步骤

2.1 需要将windows上的一些资源打包成为一个容器

虚拟机连接网络分为三种

2.1.1 桥接网络

本机安装的操作系统可以被同一个局域网下的其他主机访问

桥接网络和我们的局域网的网络是在同一个网段下的

2.1.2 NAT网络

本地安装的操作系统只能被我们的主机访问到,同一个局域网下的其他主机无法访问的

NAT模式的网络使用的网段和局域网的网段不是同一个网段,网段就是vmnet8网卡提供的

2.1.3 仅主机网络

谁也无法访问

2.2 将镜像驱动和容器关联,开启就可以安装操作系统

三、Linux操作系统的网络基本操作

3.1 和网络有关的Linux操作

ip addr :查看Linux系统的IP地址的

ping 域名/ip地址 可以查看是否能访问某个网络

linux所有的网络配置都是在一个配置文件当中: /etc/sysconfig/network-scripts/ifcfg-ens33

ONBOOT="yes" 启用当前网卡

IPADDR="192.168.XX.XXX" 配置静态

IP GATEWAY="192.168.XX.2" 配置网关的

DNS1="114.114.114.114" 配置域名解析服务器

3.2 网络如果修改完成,需要重启Linux的网卡服务

systemctl restart network

3.3 网络服务

在Linux上还有一个网络服务NetworkManagaer,这个服务我们不需要,但是它是一直开启的,如果它是开启状态,会对我们的后续操作产生影响,因此这个服务我们要求关闭了并且永久禁用了

3.4 防火墙

Linux上还有一个服务叫做firewalld(防火墙的服务),最好把防火墙服务也给关闭了,我们后续的大数据软件安装会流畅一点。

systemctl stop firewalld

systemctl disable firewalld

3.5 Linux安装的节点服务器我们一般都是要起一个主机名,便于在集群当中找到唯一的一个主机

vim /etc/hostname

主机名更改完成需要重启虚拟机:reboot

shutdown now 关闭虚拟机

四、多主机之间的互相登录问题(主机ip的映射、SSH免密登录)

多主机之间互相登录的时候,需要使用ssh IP地址的命令进行登录,但是这个操作有两个问题

  1. 一个集群中可能有很多的节点,每个节点都有一个ip地址,ip不好记忆的

  2. ssh在登录集群中其他节点的时候需要输入密码的

4.1 主机名和IP的映射配置: 说的直白一点其实就是域名解析的配置

解决集群中多台节点的IP地址不容易记忆的问题,在安装操作系统的时候,我们就已经有意的给每一台节点起了一个独一无二的主机名,如果进行登录的时候,能根据主机名去自动识别IP地址

域名解析文件:

/etc/hosts

ip 域名

4.2 SSH的免密钥登录配置

免密钥登录的原理很简单,在当前节点上产生一个公钥和私钥文件,然后我们把公钥文件给其他节点分发一份,这样的话当前节点连接其他节点就不需要密码了

  1. 产生公钥和私钥文件

    1. 切换到公钥和私钥文件的目录下: ~/.ssh
    2. 产生公钥和私钥文件: ssh-keygen -t rsa
  2. 将公钥文件发送给需要免密登录到当前节点的其他节点

ssh-copy-id 主机名/IP

五、大数据时代下主要面临两个问题

5.1 海量数据的存储问题

5.2 海量数据的计算问题

5.3 google三篇论文

5.3.1 DFS

5.3.2 Map-Reduce

5.3.3 BigTable

六、Hadoop技术–脱自于google的三篇论文

把大数据中遇到的两个核心问题全部解决了

6.1 Hadoop内部的三个核心组件

6.1.1 HDFS:分布式文件存储系统

  1. 分布式思想解决了海量数据的存储问题

  2. 三个核心组件组成

    1. NameNode:主节点
      1. 存储整个HDFS集群的元数据(目录结构)
      2. 管理整个HDFS集群
    2. DataNode:数据节点/从节点存储数据的,DataNode以Block块的形式进行文件存储
    3. SecondaryNameNode:小秘书——帮助NameNode合并日志数据的(元数据)

6.1.2 YARN:分布式资源调度系统

两个核心组件组成

  1. ResourceManager:主节点

管理整个YARN集群的,同时负责整体的资源分配

  1. NodeManager:从节点

真正负责进行资源提供的

主从架构的软件

6.1.3 MapReduce:分布式离线计算框架

分布式思想解决了海量数据的计算问题

6.1.4 Hadoop Common

6.2 Hadoop技术诞生的一个生态圈

  1. 数据采集存储——flume、kafka、hbase、hdfs
  2. 数据清洗预处理——MapReduce、Spark
  3. 数据统计分析——Hive、Pig
  4. 数据迁移——sqoop
  5. 数据可视化——echarts
  6. zookeeper

6.3 课程主要围绕Apache的Hadoop发行版本来讲解

  1. 官网:https://hadoop.apache.org

  2. apache hadoop发行版本

    1. hadoop1.x
    2. hadoop2.x
    3. hadoop3.x
    4. hadoop3.1.4

6.4 hadoop的安装的四种模式

hadoop软件中HDFS和YARN是一个系统,而且是一个分布式的系统,同时他们还是一种主从架构的软件。

第一种:本地安装模式—只能使用MapReduce,HDFS、YARN均无法使用

第二种:伪分布安装模式:hdfs和yarn的主从架构软件全部安装到同一个节点上

第三种:完全分布式安装模式:hdfs和yarn的主从架构组件安装到不同的节点上

第二种、第三种:单点故障问题

第四种:HA高可用安装模式:hdfs和yarn的主从架构组件安装到不同节点上,同时还需要把他们的主节点多安装两三个,但是在同一时刻只能有一个主节点对外提供服务

6.5 Hadoop的伪分布安装流程

  1. 需要在Linux上先安装JDK,Hadoop底层是基于Java开发的

  2. 配置当前主机的主机映射以及ssh免密登录

环境变量的配置主要有两个地方可以配置

1、/etc/profile:系统环境变量

2、~/.bash_profile:用户环境变量

3、环境变量配置完成必须重新加载配置文件 source 环境变量文件路径

  1. 安装本地版本的Hadoop

    1. 上传
    2. 解压
    3. 配置环境变量
  2. 安装伪分布式版本的Hadoop——修改各种各样的hadoop配置文件即可

    1. hadoop-env.sh 配置Java的路径
    2. core-site.xml 配置HDFS和YARN的一些共同的配置项
      1. HDFS的NameNode路径
      2. HDFS集群存储的文件路径
    3. hdfs-site.xml 配置HDFS的相关组件配置NameNode的web访问路径、DN的web访问网站,SNN的web访问路径等等。。。
    4. mapred-env.sh 配置MR程序运行时的关联的软件(Java YARN)路径
    5. mapred-site.xml 配置MR程序运行环境配置将MR程序在YARN上运行
    6. yarn-env.sh 配置YARN关联的组件路径
    7. yarn-site.xml 配置YARN的相关组件配置RM、NM的web访问路径等等
    8. workers/slaves 配置HDFS和YARN的从节点的主机配置DN和NM在哪些节点上需要安装
  3. 格式化HDFS集群

    hdfs namenode -format

  4. 启动HDFS和YARN

    1. HDFS
      1. start-dfs.sh
      2. stop-dfs.sh
      3. 提供了一个web访问网站,可以监控整个HDFS集群的状态信息 http://ip:9870 hadoop3.x ip:50070 hadoop2.x
    2. yarn
      1. start-yarn.sh
      2. stop-yarn.sh
      3. 提供了一个web网站,可以监控整个YARN集群的状态: http://ip:8088

七、Spark技术

解决了海量数据的计算问题

八、Flink技术:计算框架

九、Storm技术:计算框架

猜你喜欢

转载自blog.csdn.net/cai_4/article/details/131671448
今日推荐