Hive 学习小记(二)

  1. 因为hive的数据存储在hdfs中,添加数据实际上完成了mr的任务,所以需要先启动hdfs集群和yarn集群!!
  2. 使用BeeLine Cli的时候,如果要进行insert等操作,需要现在集群中修改用户权限–在hiveserver服务所在的虚拟机的hadoop/etc/hadoop/core-site.xml中添加
  <property>
    <name>hadoop.proxyuser.hadoop.hosts</name>
    <value>*</value>
  </property>
  <property>
    <name>hadoop.proxyuser.hadoop.groups</name>
    <value>*</value>
  </property>

这也hadoop用户就可以在Beeline Cli 连接Hive

此时需要重启一下hadoop服务
这个时候涉及到重启hdfs集群以及yarn集群 ps:可以自己写一个重启脚本。感觉重启起来好麻烦
ps:有的时候namenode莫名其妙挂了,log报连接超时,可以在core-site.xml中添加如下配置

    <property>
        <name>ipc.client.connect.max.retries</name>
        <value>100</value>
    </property>
    <property>
        <name>ipc.client.connect.retry.interval</name>
        <value>10000</value>
    </property>

重启成功可以在web10002端口查看
在这里插入图片描述
因为是BeelineCli启动 所以需要手动开启hiveserver2 开启后用JPS 发现多了一个RunJar进程,ps之后可以看到hiveserver2程序

  1. 可以在yarn的web页面 或者 hive的web页面 查看正在进行的mr 任务
    在这里插入图片描述
    在这里插入图片描述

4 如果使用load data local inpath 。。。 命令
注意把要加载的文件上传到 hiveserver所在的服务器,然后执行 load data local inpath [path] [overwrite] into table table_name.

发布了6 篇原创文章 · 获赞 6 · 访问量 503

猜你喜欢

转载自blog.csdn.net/qq_41130274/article/details/105336487