使用hive做单词统计

其他 2018-08-10 15:36:19 阅读次数: 0

方法一（分步查询）：

1、首先创建一个文件单词的文件，例如a.txt

kk,123,weiwei,123
hlooe,hadoop,hello,ok
h,kk,123,weiwei,ok
ok,h

2、将文件上传到hdfs中

hdfs dfs -copyFromLocal ./a.txt /upload/wangwei/a.txt

3、在hive中创建一个textline的表

create table textlines(text string);

4、在hive中创建一个words表

create table words(word string);

5、加载数据到textline中

load data inpath '/upload/wangwei/a.txt' into table textline;

6、将textlines中的数据拆分根据','号拆分为单词，然后存入words表中

insert overwrite  table  words  select explode(split(text,',')) as word from textline;

7、进行单词统计

select word, count(*)  from words group by word;

20180621更新

方法二（使用sql子查询语句一条语句搞定）：

1、首先将textline表中的数据炸裂开

select explode(split(text,',')) from textline;

2、将上面的结果as表t，然后对表t进行单词统计

select t.word,count(*) from((select explode(split(text,',')) as word from textline) as t)group by t.word;

3、按照统计出来的单词的顺序，从大到小排列，取前面三个值。对上面的count(*)进行排序

select t.word,count(*) as c from((select explode(split(text,',')) as word from textline) as t)group by t.word order by c desc limit 3;

4、将统计出来的结果放在hive表中

create table wordcount as select t.word,count(*) as c from((select explode(split(text,',')) as word from textline) as t)group by t.word order by c desc limit 3;

select * from wordcount;

猜你喜欢

转载自blog.csdn.net/qq_35468937/article/details/80752073

使用hive做单词统计

wordcount经典题：使用Hive完成单词统计

c语言：做单词词频统计

hive做报表统计相关语句整理

利用Java的Spark做单词统计并排序

使用StringTokenizer统计文本行单词个数

统计单词数：string函数使用

统计单词

单词统计

使用Redis神奇的HyperLogLog做UV统计

单词识别(统计单词个数)

使用jdk8 stream 统计单词数

spark复习笔记(3)：使用spark实现单词统计

使用Go语言优雅地统计单词个数

使用mapreduce统计文件中所有单词出现的次数

hadoop使用MapReduce统计单词出现次数案例

hadoop 单词统计 java

统计单词出现频率

单词数目统计

1400：统计单词数

1058. 统计单词

文本单词统计

统计单词感想

字母、单词统计

素数，回文，统计单词

Storm实现单词统计

单词统计作业

统计单词频率

统计单词个数

统计单词数

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

更多

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)