【Hadoop】Hadoop综合大作业

 

1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)进行词频统计。

查看文档内容:

启动hadoop生态环境:

 

创建文件夹并查看:

移动文件:

启动hive:

创建数据库+表:

(中间有长串警告信息,省略)

进行词频统计:

结果:

2.用Hive对爬虫大作业产生的csv文件进行数据分析,写一篇博客描述你的分析过程和分析结果。

查看爬虫大作业产生的文件:

放入test目录:

进入Hive后,进行词频统计:

结果(太长了只截了小部分):

猜你喜欢

转载自www.cnblogs.com/CatalpaOvata132/p/9090782.html