重装一次CM的坑爹记录

今天同事要对测试环境进行降级（测试高于生产所以要求降级）,自己不经常搞运维,但是无奈测试环境没运维管理只能自己上了。

流程和遇到问题按数字表示。

1.重装CM（clouder manager）这个过程还是比较容易的,机器选择升级就好了，记得别点安装JDK（多个版本JDK会影响集群JDK！！！）,记得备份库，我就是不小心把原始库覆盖了把集群搞没了,CM的节点结构是主节点一个server创建数据库,agent节点为子节点，所以启动一个server节点时候会检测没这个库会去进行插入（库的创建要自己动手）

2.db.properties（为库的连接配置，注意看agentserver日志有相关信息），修改成自己对应的库地址

3.节点比如统一root密码

4.覆盖CDH版本存在问题，记得机器全部安装CM顺利后（出错多看log），server和agent都正常的话就可以进行parcel方式离线安装（默认路径是/opt/cloudera/parcel-report差不多是这个，可以设置自己配置把东西放下面）

CDH-5.10.0-1.cdh5.10.0.p0.41-el6.parcel CDH-5.10.0-1.cdh5.10.0.p0.41-el6.parcel.sha CDH-5.10.0-1.cdh5.10.0.p0.41-el6.parcel.torrent manifest.json

记得SHA1改成sha manifest只保留你自己版本对应哪个（cat下内容看看都能懂）,点击CM的添加集群可以进行安装。过程存在很多问题,比如几个关键路径

[root@rhel071 run]# cd cloudera-scm-agent/
[root@rhel071 cloudera-scm-agent]# ls
cgroups cloudera-scm-agent.pid events flood process supervisor
[root@rhel071 cloudera-scm-agent]# pwd
/var/run/cloudera-scm-agent

这里的ID文件每次启动都会运行,有时候残留会造成集群出错。女的

[root@rhel071 lib]# cd cloudera-scm-agent/
[root@rhel071 cloudera-scm-agent]# ls
cm_guid response.avro uuid
[root@rhel071 cloudera-scm-agent]# pwd
/var/lib/cloudera-scm-agent
[root@rhel071 cloudera-scm-agent]#

这个CMID是对应每次server启动的唯一值，残留历史CM也会造成出错（eg:

Authentication failure for user: __cloudera_internal_user__

）

很多问题都是这两个目录东西残留造成（这些问题百度也没好的答案晕死，牛头不对马嘴，其实就是有时候强制重启造成）

还有集群升级完机器后,机器启动monitor那些东西，这个也是集群必须的，不启动也是会给你报一堆你看不懂百度不到的错误（eg:sending messages to firehose，或者agent坚持不到parcel版本XXX之类都是没启动造成）

下次贴图

还有安装HDFS记得format出错看看/data/dfs/nn dn是否为空，不为空需要删除旧的数据

hadoop version 错误可能是没配置好环境变量,或者/usr/bin 下面存在旧的hadoop影响

hadoop fs -ls报找不到core-site（其实路径下有）也是没配置好(hadoop_home)

export HADOOP_CONF_DIR=/opt/cloudera/parcels/CDH-5.10.0-1.cdh5.10.0.p0.41/lib/hadoop/etc/hadoop

如果报机器JDK不一致，记得rpm -qa|grep java yum -y remove XX把多余影响的删除,配置自己一个版本就好了

(先记录到这里下次再记录仔细点,装了两天多遇到不少问题怕忘记先记录下)

重装一次CM的坑爹记录

Authentication failure for user: __cloudera_internal_user__

猜你喜欢