重装一次CM的坑爹记录

今天同事要对测试环境进行降级(测试高于生产所以要求降级),自己不经常搞运维,但是无奈测试环境没运维管理只能自己上了。

流程和遇到问题按数字表示。

1.重装CM(clouder manager)这个过程还是比较容易的,机器选择升级就好了,记得别点安装JDK(多个版本JDK会影响集群JDK!!!),记得备份库,我就是不小心把原始库覆盖了把集群搞没了,CM的节点结构是主节点一个server创建数据库,agent节点为子节点,所以启动一个server节点时候会检测没这个库会去进行插入(库的创建要自己动手)

2.db.properties(为库的连接配置,注意看agentserver日志有相关信息),修改成自己对应的库地址

3.节点比如统一root密码

4.覆盖CDH版本存在问题,记得机器全部安装CM顺利后(出错多看log),server和agent都正常的话就可以进行parcel方式离线安装(默认路径是/opt/cloudera/parcel-report差不多是这个,可以设置自己配置把东西放下面)

CDH-5.10.0-1.cdh5.10.0.p0.41-el6.parcel  CDH-5.10.0-1.cdh5.10.0.p0.41-el6.parcel.sha  CDH-5.10.0-1.cdh5.10.0.p0.41-el6.parcel.torrent  manifest.json

记得SHA1改成sha manifest只保留你自己版本对应哪个(cat下内容看看都能懂),点击CM的添加集群可以进行安装。过程存在很多问题,比如几个关键路径

[root@rhel071 run]# cd cloudera-scm-agent/
[root@rhel071 cloudera-scm-agent]# ls
cgroups cloudera-scm-agent.pid events flood process supervisor
[root@rhel071 cloudera-scm-agent]# pwd
/var/run/cloudera-scm-agent

这里的ID文件每次启动都会运行,有时候残留会造成集群出错。女的

[root@rhel071 lib]# cd cloudera-scm-agent/
[root@rhel071 cloudera-scm-agent]# ls
cm_guid response.avro uuid
[root@rhel071 cloudera-scm-agent]# pwd
/var/lib/cloudera-scm-agent
[root@rhel071 cloudera-scm-agent]#

这个CMID是对应每次server启动的唯一值,残留历史CM也会造成出错(eg:

Authentication failure for user: __cloudera_internal_user__

很多问题都是这两个目录东西残留造成(这些问题百度也没好的答案晕死,牛头不对马嘴,其实就是有时候强制重启造成)

还有集群升级完机器后,机器启动monitor那些东西,这个也是集群必须的,不启动也是会给你报一堆你看不懂百度不到的错误(eg:sending messages to firehose,或者agent坚持不到parcel版本XXX之类都是没启动造成)

下次贴图

还有安装HDFS记得format出错看看/data/dfs/nn   dn是否为空,不为空需要删除旧的数据

hadoop version 错误可能是没配置好环境变量,或者/usr/bin 下面存在旧的hadoop影响

hadoop fs -ls报找不到core-site(其实路径下有)也是没配置好(hadoop_home)

export HADOOP_CONF_DIR=/opt/cloudera/parcels/CDH-5.10.0-1.cdh5.10.0.p0.41/lib/hadoop/etc/hadoop

如果报机器JDK不一致,记得rpm -qa|grep java yum -y remove XX把多余影响的删除,配置自己一个版本就好了

(先记录到这里下次再记录仔细点,装了两天多遇到不少问题怕忘记先记录下)

猜你喜欢

转载自www.cnblogs.com/yaohaitao/p/9573189.html
今日推荐