【大数据开发环境】环境搭建之阿里云最低配伪分布式

基本的环境搭建就不再多说,也是照着各种博客开始搭建。

个人心得:

  1. 各框架的目录都大同小异(lib:存放资源库,bin|sbin:启动脚本等,conf:配置文件)
  2. 基本每个框架都要记得添加PATH(最好配置为系统path:/etc/profile中)
  3. 很多大数据框架都建立在hadoop之上,一定好搭建好hadoop(jps时刻关注各进程的状态,有时会诡异被kill掉,此时多从内存上着手排查),搭建完一定检查mapreduce是否能正常使用,跑一跑官方的demo即可。因为后面hive要用到mapreduce进程。
  4. 各个版本需要匹配,主要与hadoop版本兼容。设计到的框架下载地址基本齐全,免得大家再到处拼凑。(apache基金会项目地址:http://archive.apache.org/dist/

【环境】

基于阿里云最低配版伪分布式环境(已经部署ok,经理了很多波折,主要问题是内存太小,加了4G交换分区,勉强能运行了):
anaconda3-python3
mariadb5.5
hadoop3.1.2
jdk1.8
spark2.4.1
hive3.1.1
hbase2.1.5

部署中遇到的部分问题

  1. hadoop配置文件内容较多,不完善。尽可能了解常用配置的作用;
  2. 阿里云/etc/hosts文件要配置为内网IP;
  3. mariadb配置为外网可访问;
  4. hive与hadoop中存在guaua的jar包冲突,解决办法是删掉版本小的jar包;
  5. hive元数据放到了mysql,注意配置好hive中mysql连接参数(可配置为自动建库),并将mysql-connector驱动放到hive/lib目录中。
	cd /home/hadoop/hive-2.3.0/bin
	./schematool -initSchema -dbType mysql)

hdfs-webUI
hiveCli运行正常
spark-webUI
jps进程显示

发布了2 篇原创文章 · 获赞 0 · 访问量 46

猜你喜欢

转载自blog.csdn.net/oYuZhongManBu1234/article/details/104202023