Hadoop分布式数据处理

在这里插入图片描述
mappereduce
MR基于数据集的计算,所以面向数据
1基本运算规则从存储介质中获取(采集)数据,然后进行计算,最后将结果存储到介底中,所以主要应用于一次性计算,不适合于数据挖掘和机器学习这样的迭代计算和图形挖掘计算。
2 MR基于文件存储介质的操作,所以性能非常的慢
3. MR和hadoop紧密耦合在一起,无法动态替换

hadoop指令
强制复制本地文件到hdfs
hadoop fs -copyFromLocal -f 本地路径 服务器路径
从hdfs上把文件复制到本地
hadoop fs -copyTolocal 服务器路径
删除文件
hadoop fs -rm /usernew1
删除文件夹
hadoop fs -rm -R /usernew1

将需要统计得文件传输到指定文件夹中
cp hadoop的license.txt路径 指定文件路径(~/wordcount/input)

hadoop jar wc.jar wordcount /usernew/hduser/test/wordcount/input/LICENSE.txt
/usernew/hduser/test/wordcount/output

spark指令
查看线程数
sc.master
文件读取
sc.textFile(“hdfs:127.0.0.1:9000”)

开启spark环境下得anaconda
PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS=‘notebook’ pyspark

发布了49 篇原创文章 · 获赞 13 · 访问量 2万+

猜你喜欢

转载自blog.csdn.net/weixin_44166997/article/details/100035015