- 因为hive的数据存储在hdfs中,添加数据实际上完成了mr的任务,所以需要先启动hdfs集群和yarn集群!!
- 使用BeeLine Cli的时候,如果要进行insert等操作,需要现在集群中修改用户权限–在hiveserver服务所在的虚拟机的hadoop/etc/hadoop/core-site.xml中添加
<property>
<name>hadoop.proxyuser.hadoop.hosts</name>
<value>*</value>
</property>
<property>
<name>hadoop.proxyuser.hadoop.groups</name>
<value>*</value>
</property>
这也hadoop用户就可以在Beeline Cli 连接Hive
此时需要重启一下hadoop服务
这个时候涉及到重启hdfs集群以及yarn集群 ps:可以自己写一个重启脚本。感觉重启起来好麻烦
ps:有的时候namenode莫名其妙挂了,log报连接超时,可以在core-site.xml中添加如下配置
<property>
<name>ipc.client.connect.max.retries</name>
<value>100</value>
</property>
<property>
<name>ipc.client.connect.retry.interval</name>
<value>10000</value>
</property>
重启成功可以在web10002端口查看
因为是BeelineCli启动 所以需要手动开启hiveserver2 开启后用JPS 发现多了一个RunJar进程,ps之后可以看到hiveserver2程序
- 可以在yarn的web页面 或者 hive的web页面 查看正在进行的mr 任务
4 如果使用load data local inpath 。。。 命令
注意把要加载的文件上传到 hiveserver所在的服务器,然后执行 load data local inpath [path] [overwrite] into table table_name.