Hive 学习小记(二)

因为hive的数据存储在hdfs中，添加数据实际上完成了mr的任务，所以需要先启动hdfs集群和yarn集群！！
使用BeeLine Cli的时候，如果要进行insert等操作，需要现在集群中修改用户权限–在hiveserver服务所在的虚拟机的hadoop/etc/hadoop/core-site.xml中添加

  <property>
    <name>hadoop.proxyuser.hadoop.hosts</name>
    <value>*</value>
  </property>
  <property>
    <name>hadoop.proxyuser.hadoop.groups</name>
    <value>*</value>
  </property>

这也hadoop用户就可以在Beeline Cli 连接Hive

此时需要重启一下hadoop服务
这个时候涉及到重启hdfs集群以及yarn集群 ps：可以自己写一个重启脚本。感觉重启起来好麻烦
ps：有的时候namenode莫名其妙挂了，log报连接超时，可以在core-site.xml中添加如下配置

    <property>
        <name>ipc.client.connect.max.retries</name>
        <value>100</value>
    </property>
    <property>
        <name>ipc.client.connect.retry.interval</name>
        <value>10000</value>
    </property>

重启成功可以在web10002端口查看
在这里插入图片描述
因为是BeelineCli启动所以需要手动开启hiveserver2 开启后用JPS 发现多了一个RunJar进程，ps之后可以看到hiveserver2程序

可以在yarn的web页面或者 hive的web页面查看正在进行的mr 任务

4 如果使用load data local inpath 。。。命令
注意把要加载的文件上传到 hiveserver所在的服务器，然后执行 load data local inpath [path] [overwrite] into table table_name.

程序员小李的开发路

发布了6 篇原创文章 · 获赞 6 · 访问量 503

私信关注

猜你喜欢