Hql查询案例二 : 词频分析

数据

hello tom hello jim
hello rose hello tom
tom love rose rose love jim
jim love tom love is what
what is love

需求

统计文件中每个单词出现的频率

需求分析

  1. 建表存放数据
  2. 将数据导入hive表中
  3. 将数据按空格分割,并使用explode炸裂为列的格式
    4.炸裂结果为每个单词一行,将数据按单词分组并排序,count()统计词频数

hql语句

  1. 建表
    create table t_wc(sentence string);
  2. 导入数据
    load data local inpath '/root/hivetest/xx.txt' into table t_wc;
  3. 实现功能
    SELECT word
    ,count(1) as cnts
    FROM (
    SELECT explode(split(sentence, ' ')) AS word
    FROM t_wc
    ) tmp
    GROUP BY word
    order by cnts desc
    ;

猜你喜欢

转载自blog.csdn.net/amin_hui/article/details/82250847
今日推荐