CentOS-7-x86_64-DVD-1708.iso镜像文件
VMware-workstation-full-12.5.9-7535481.exe虚拟机运行窗口
一.安装镜像
二.连接Xshell
1.获取ip:ifconfig
连接两种方式:xshell新建连接或ssh
三.用户和文件操作
1.创建新用户:useradd hadoop -m(-m是创建一个主题目录)
2.用户设置密码:password hadoop
系统用户在主机名称 ~主体目录
3.mkdir 创建一个目录
4.创建文件:touch test
5.编辑文件:vi test
6.改变权限:chmod o+w /home/zhangsan/test/test(添加可写)
四.解压缩文件和配置JDK
1.tar -xaf jdk-8u..... -C opt(目录)
2..配置环境变量:vi ~/.bashrc
3.更新环境变量:source ~/.bashrc
五.hadoop的环境变量配置
1.解压缩:tar -xzf hadoop-2.7.5.tar.gz (切记在hadoop用户下)
2.配置环境变量:
(追加进去)
配置HADOOP_HOME: echo export HADOOP_HOME=`pwd`>>~/.bashrc(要在hadoop-2.7.5下)
配置HADOOP_CONF_DIR: echo export HADOOP_CONF_DIR=`pwd`/etc/hadoop>>~/.bashrc(要在hadoop-2.7.5下)
(写入)
配置PATH:删除PATH 重写
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
更新:source ~/.bashrc
六.搭建hadoop
1,配置静态IP:su root
查看网段:ifconfig
编辑:vi /etc/sysconfig/network-scripts/ifcfg-ens33
修改BOOTPROTO=static onroot = yes
添加
IPADDR=192.168.33.110 (33设置成你的网段,最后随便设置,请牢记这个ip)
NETMASK=255.255.255.0(子网掩码)
GATEWAY=192.168.33.2(这里的33也请改成你的网段)(网关)
DNS1=202.106.0.20(DNS服务器)114.114.114.114
重启:reboot 或者 systemctl restart network 看配置生效了吗
2.修改主机名:在root下 vi /etc/hostname python5
修改映射:vi /etc/hosts ip地址 python5
重启:
修改windows下的映射:进入c:windows/system32/drivers/etc/hosts (拖出来)输入:ip地址 python5
3.修改配置文件
在hadoop下:
配置 core-site.xml vi
在configuration添加以下内容 然后保存退出
<property>
<name>fs.defaultFS</name>
<value>hdfs://python2:9000</value>
</property>
配置hdfs-site.xml
在configuration添加以下内容 然后保存退出
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:///home/hadoop/opt/tmp/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:///home/hadoop/opt/tmp/dfs/data</value>
</property>
<property>
<name>dfs.namenode.http-address</name>
<value>python2:50070</value>
</property>
配置mapred-site.xml
复制重命名:cp mapred-site.xml.template mapred-site.xml
在configuration添加以下内容 然后保存退出
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
配置yarn-site.xml
在configuration添加以下内容 然后保存退出
<property>
<name>yarn.resourcemanager.hostname</name>
<value>python2</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
修改slaves:
配置datanode主机名称:vi slaves(奴隶)
python5
4.关闭防火墙和selinux
切换root用户下
关闭防火墙:systemctl disable firewalld
关闭selinux: vi /etc/selinux/config
修改 SELINUX =disabled
重启:
查看防火墙状态:getenforce
5.执行hdfs文件系统格式化:hdfs namenode-format
6.配置ssh无密码登陆:
在bin目录下:ssh-keygen -t rsa一直回车
登陆计算机名:ssh-copy-id python5
输入hadoop的密码
7.启动服务start-dfs.sh
start-yarn.sh
查看:jps
8.浏览器访问:python5:50070
hadoop搭建成功!
七.文件上传
1.创建一个目录:hadoop fs -mkdir -p /user/hadoop
2.文件上传:
新建文件:touch data.txt
保存:shift+z-z 或者 :wq
上传:hadoop fs -put data.txt
八.Anaconda的安装
1.上传anaconda
2.安装前需要安装bzip2 在root用户下:yum -y install bzip2
3.开始安装Anaconda
bash Anaconda3-5.0.1-Linux-x86_64.sh
输入回车,中间一定要写yes!!!
4.更新环境变量
source ~/.bashrc
5.查看jupter地址 jupyter-notebook --ip python5
6.就浏览器,复制地址
九.spark的安装
1.上传
2.解压缩到opt目录 2.tar -xzf spark-2.2.1-bin-hadoop2.7.tgz -C opt
3.配置环境变量
vi ~/.bashrc
加入:
export SPARK_HOME=/home/hadoop/opt/spark-2.2.1-bin-hadoop2.7
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
4.更新环境变量
5.执行pyspark 测试成功?
十.可以SPARK CORE编程了
linux安装Mysql:
1,去mysql官网下载
mysql57-community-release-el7-11.noarch.rpm
2.在root环境下
rpm -Uvh mysql57-community-release-el7-11.noarch.rpm(执行mysql57版本,安装的是mysql80版本,要切换,!去官网有指导)
3.安装mysql : yum install mysql-community-server -y(加-y省去中间命令)
4.修改关闭密码验证:vi /etc/my.cnf
在最后添加: plugin-load=validate_password.so
validate-password=OFF
5.开启mysql: systemctl start mysqld 将start改成status
6.获取mysql临时密码:
grep 'temporary password' /var/log/mysqld.log
7.在数据库中修改密码:ALTER USER 'root'@'localhost' IDENTIFIED BY 'MyNewPasswd'
8.开启远程访问:GRANT ALL PRIVILEGES ON *.* TO 'root'@'%'IDENTIFIED BY 'mypassword' WITH GRANT OPTION;
刷新权限:FLUSH PRIVILEGES
安装hive:
1.导入文件---解压文件:tar -xzf apache-hive-2.3.2-bin.ta
2.进入conf目录,复制文件改名:cp hive-default.xml.template hive-site.xml