感谢关注天善智能,走好数据之路↑↑↑
欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析与挖掘领域的垂直社区,学习,问答、求职一站式搞定!
对商业智能BI、大数据分析挖掘、机器学习,python,R等数据领域感兴趣的同学加微信:tstoutiao,邀请你进入数据爱好者交流群,数据爱好者们都在这儿。
虚拟机直接网上下载后,按照流程一键安装就行,这个比较简单就不多叙述
一、安装linux系统
1.1
安装好虚拟机后,直接去官网下载CentOS7,链接http://mirrors.shu.edu.cn/centos/7/isos/x86_64/CentOS-7-x86_64-Everything-1804.iso
在虚拟机上按照安装引导一步步确认(内存设置依据自己实际内存多大调整),网络选择桥接方式,软件选择>gnome桌面
也可以参考网上资料:https://jingyan.baidu.com/article/a3f121e4b18b74fc9052bb14.html
1.2
安装好系统后,桌面没有终端图标,直接去路径/usr/share/applications,找到图标copy到桌面
网络没有网,在终端输入ifconfig没有ip显示,这时候可能是网络未打开,直接在右上角找到多电脑的图标Wired Connected>Connect(火狐浏览器默认用Google搜索)
二、安装python3.6
在根目录建个python文件夹,存放下载的python3.7文件
$cd/ &&sudo mkdir python#如果要删除文件夹的话 $sudo rm -rf /python
$cdpython
$sudowgethttps://www.python.org/ftp/python/3.7.0/Python-3.7.0b4.tar.xz#下载文件
$sudoxz -dPython-3.7.0b4.tar.xz
$sudotar -xfPython-3.7.0b4.tar
$cd/ &&sudo chown -Rchris:users python#修改文件权限,免得老是要sudo,命令中chris是用户名
$cd/python/Python-3.7.0b4/
$python#能够运行就表示成功
另外在系统中添加环境变量,这样以后直接输入python就可以运行
$vi~/.bashrc#打开bashrc文件
#添加环境变量 export PATH=$PATH:/python/Python-3.7.0b4
$source~/.bashrc
在linux根目录输入python能够运行表示安装成功
三、安装spark
$sudomkdirspark
$sudochown-R chris:users spark
$wgethttp://mirror.bit.edu.cn/apache/spark/spark-2.3.0/spark-2.3.0-bin-hadoop2.7.tgz#spark官网下载地址
$tar-xf spark-2.3.0-bin-hadoop2.7.tgz#解压文件
$cd/spark/spark-2.3.0-bin-hadoop2.7/python#spark存放位置
$vi~/.bashrc #打开bashrc文件
#和python一样在bashrc文件中添加spark路径 export PATH=$/spark/spark-2.3.0-bin-hadoop2.7/python
$source~/.bashrc
同样在linux根目录输入pyspark能够运行表示安装成功
四、安装kafka
4.1 安装JDK
安装kafka之前需要先安装JDK,在网站http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html下载适合的版本,然后复制到目录/spark中
$cd/spark
$tar-xf jdk-8u171-linux-x64.tar.gz
$vi~/.bashrc
在bashrc文件中添加语句
exportJAVA_HOME=/spark/jdk1.8.0_171
exportCLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
exportPATH=$PATH:$JAVA_HOME/bin
然后重启环境变量
$source/etc/bashrc
$java-version#查看JDK版本
4.2 启动Zookeeper
$cd /spark
$wget http://archive.apache.org/dist/kafka/0.9.0.0/kafka_2.11-0.9.0.0.tgz
$tar -xf kafka_2.11-0.9.0.0.tgz#解压kafka压缩包
$cd kafka_2.11-0.9.0.0
$bin/zookeeper-server-start.sh config/zookeeper.properties#启动kafka自带的Zookeeper
4.3 启动Server
linux打开终端,并输入
$cd /spark/kafka_2.11-0.9.0.0/
$bin/kafka-server-start.sh config/server.properties#启动kafaka服务打开终端
4.4 打开发送消息界面
再打开终端,输入命令:
$cd /spark/kafka_2.11-0.9.0.0/
$bin/kafka-console-producer.sh --broker-listlocalhost:9092--topic test#创建test的主题
4.5测试
终端里启动4.2的Zookeeper和4.3的server服务,以及4.4的发送消息窗口后在该窗口随意输入字符,然后打开终端输入命令
$cd /spark/kafka_2.11-0.9.0.0/
$bin/kafka-console-consumer.sh --zookeeper localhost:2181--topic test --from-beginning#读取消息窗口
成功的话应该能够在读取消息的窗口里看到刚输入的消息
参考:https://blog.csdn.net/fenglailea/article/details/52458000
五 、建立postgres数据库
官网上有相关示例https://www.postgresql.org/download/linux/redhat/
$sudoyum installhttps://download.postgresql.org/pub/repos/yum/10/redhat/rhel-7-x86_64/pgdg-centos10-10-2.noarch.rpm#安装数据库
$sudoyum install postgresql10#安装客户端
$sudoyum install postgresql10-server#安装服务端
$sudo/usr/pgsql-10/bin/postgresql-10-setup initdb#初始化数据库
$systemctlenable postgresql-10#设置开机启动
$systemctlstart postgresql-10
开启远程访问
$sudovim /var/lib/pgsql/10/data/postgresql.conf
修改#listen_addresses = 'localhost' 为 listen_addresses='*'
#post=5432 改为 post=5432
信任远程连接
$sudovim /var/lib/pgsql/10/data/pg_hba.conf
#修改文件的内容
host all all 127.0.0.1/32 ident 改成 host all all 127.0.0.1/32 trust
添加内容 host all all 10.8.34.156/32 trust #10.8.34.156指要连接的ip地址
修改密码
$sudo-u postgres psql
postgres=#posALTER USER postgres WITH PASSWORD 'postgres';
postgres=#\q
修改防火墙
$firewall-cmd --permanent --add-port=5432/tcp
$firewall-cmd --permanent --add-port=80/tcp
$firewall-cmd --reload
启动服务:
$systemctlrestart postgresql-10
在这里利用Navicat测试数据库:
参考:https://www.cnblogs.com/stulzq/p/7766409.html
总结
安装各种软件还是有很多需要注意的地方,在此记录下来,再次安装就方便多了,只要电脑配置跟得上,后续还可以在多个机器中尝试Hadoop集群等
另外有问题的地方希望能够指正出来
文章来源:天善智能社区https://ask.hellobi.com/blog/ysfyb/12008
作者:走马兰台