hadoop综合 - 代码天地

hadoop综合

其他 2019-06-18 10:14:50 阅读次数: 0

对CSV文件进行预处理生成无标题文本文件，将爬虫大作业产生的csv文件上传到HDFS

首先，我们需要在本地中创建一个/usr/local/bigdatacase/dataset文件夹,具体的步骤为：

① cd /usr/local

② sudo mkdir bigdatacase

③ cd bigdatacase/

④ sudo mkdir dataset

⑤ cd dataset/

如下图所示：

其次，我们把lagoupy.csv文件放到下载这个文件夹中，并使用命令把lagoupy.csv文件拷贝到我们刚刚所创建的文件夹中，具体步骤如下：

① sudo cp /home/chen/下载/lagoupy.csv /usr/local/bigdatacase/dataset/ #把lagoupy.csv文件拷到刚刚所创建的文件夹中

② head -5 small_test.csv #查看这个文件的前五行

对CSV文件进行预处理生成无标题文本文件，步骤如下：

① sudo sed -i '1d' lagoupy.csv #删除第一行记录

② head -5 small_test.csv #查看前五行记录

如下图所示：

接着，启动hadoop，步骤如下：

① start-all.sh #启动hadoop

② jps #查看hadoop是否启动成功

如下图所示：

最后，我们把本地的文件上传至HDFS中，步骤如下：

① hdfs dfs -mkdir -p /bigdatacase/dataset #在hdfs上新建/bigdatacase/dataset

② hdfs dfs -ls /

③ hdfs dfs -put ./lagoupy.csv /bigdatacase/dataset #把本地文件small_test.csv上传至hdfs中

④ hdfs dfs -ls /bigdatacase/dataset #查看

⑤ hdfs dfs -cat /bigdatacase/dataset/small_test.csv | head -5 #查看hdfs中small_test.csv的前五行

如下图所示：

把hdfs中的文本文件最终导入到数据仓库Hive中

首先，启动hive，步骤如下：

① service mysql start #启动mysql数据库

② cd /usr/local/hive

③ ./bin/hive #启动hive

如下图所示：

猜你喜欢

转载自www.cnblogs.com/lijiajie/p/11043587.html

hadoop综合

【Hadoop】Hadoop综合大作业

Hadoop综合大作业

Hadoop 综合大作业

Hadoop综合大作业 Hadoop综合大作业

hadoop综合大作业1

hadoop--初识hadoop

Hadoop-初识hadoop

hadoop-

Hadoop

【hadoop】

hadoop+lucene+web 综合小demo

[综合]Apache Hadoop 2.2.0概要[翻译]

Hadoop综合大作业&补交作业

Hadoop 综合揭秘——HBase的原理与应用

菜鸟学IT之Hadoop综合大作业

Hadoop学习——hive的安装与体验(全网综合)

Hadoop1和Hadoop2和Hadoop3之间的差异

Hadoop3x，Hadoop2x新特性

[综合]Apache Hadoop 2.2.0集群安装(2)[翻译]

[综合]Apache Hadoop 2.2.0集群安装(1)[翻译]

[综合]Apache Hadoop 2.2.0单节点集群安装[翻译]

Hadoop综合大作业&补交两次作业

大数据晋级之路（5）Hadoop，Spark，Storm综合比较

大数据应用期末总评Hadoop综合大作业

【大数据应用期末总评】Hadoop综合大作业

大数据应用期末总评（hadoop综合大作业）

基于Hadoop豆瓣电影数据分析（综合实验）

Hadoop入门学习笔记——八、数据分析综合案例

hadoop1存在的问题及hadoop2的优势对比

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

OOP第二次作业

java web 乱码问题

android 禁止scrollview 因控件变化自动滚动到底的方法

mysql服务解压版的安装(5.7)

centos7 nginx+tomcat配置https 安装免费SSL Let’s Encrypt

使用Mosquitto遗嘱机制实现感知客户端上下线功能的方法

面向对象之------多态与多态性

开发Teams Tabs应用程序

C# 希尔排序

第2章 Jupyter Notebooks

每日归档

更多

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)