pyspark将本地数据转化为方便在hdfs上读取的分布式数据 - 代码天地

pyspark将本地数据转化为方便在hdfs上读取的分布式数据

其他 2020-01-22 14:15:33 阅读次数: 0

以mnist数据为例

读取mnist数据

from tensorflow.contrib.learn.python.learn.datasets import mnist

with open(input_images, 'rb') as f:
    images = numpy.array(mnist.extract_images(f))

创建RDD数据

imageRDD = sc.parallelize(images.reshape(shape[0], shape[1] * shape[2]), num_partitions)
labelRDD = sc.parallelize(labels, num_partitions)

保存文件路径

output_images = output + "/images"
output_labels = output + "/labels"

转化为CSV

def toCSV(vec):
  """将数据转化为以逗号分割的数据"""
  return ','.join([str(i) for i in vec])

imageRDD.map(toCSV).saveAsTextFile(output_images)
labelRDD.map(toCSV).saveAsTextFile(output_labels)

转化为pickle

imageRDD.saveAsPickleFile(output_images)
labelRDD.saveAsPickleFile(output_labels)

转化为tfrecord

tfRDD = imageRDD.zip(labelRDD).map(lambda x: (bytearray(toTFExample(x[0], x[1])), None))
    # requires: --jars tensorflow-hadoop-1.0-SNAPSHOT.jar
tfRDD.saveAsNewAPIHadoopFile(output, "org.tensorflow.hadoop.io.TFRecordFileOutputFormat",
                                 keyClass="org.apache.hadoop.io.BytesWritable",
                                 valueClass="org.apache.hadoop.io.NullWritable")

数据的读取在另外一篇博客

发布了19 篇原创文章 · 获赞 3 · 访问量 409

私信关注

猜你喜欢

转载自blog.csdn.net/u011740601/article/details/103893037

pyspark将本地数据转化为方便在hdfs上读取的分布式数据

将图片数据转化为TFRecord格式与读取

将数据集转化为tfrecord并读取tfrecord

如何将pyspark的rdd数据类型转化为DataFrame

pyspark程序从hdfs上读取数据求其TopN，并将结果存回hdfs

pyspark 数据的读取与保存；pyspark的dataframe转化与展示

Google Earth Engine （GEE）——利用focalMode简化将影像简化方便快速转化为矢量数据

使用PySpark将ElasticSearch的数据写入第三方存储（hdfs、mysql、本地文件）

数据处理——将非高斯分布转化为高斯分布

大数据分布式文件系统HDFS

分布式数据存储与管理[HDFS+HBase]

大数据学习3——分布式文件系统HDFS

大数据技术分布式存储 HDFS原理

大数据(二) --分布式文件系统(HDFS)

大数据Hadoop分布式文件系统HDFS

大数据分布式文件存储系统~HDFS

大数据入门 | 三、分布式文件系统HDFS

大数据技术分析：HDFS分布式系统介绍！

大数据技术 - 分布式文件系统 HDFS 的设计

【大数据】分布式文件系统HDFS 练习

大数据 | 分布式文件系统HDFS 练习

大数据分布式文件系统 HDFS概念

【大数据基础】分布式文件系统HDFS

大数据之Hadoop分布式文件系统HDFS

php 将xml 数据转化为json

将mongoDB数据转化为json

numpy将数据转化为缺失值

微软将分布式身份协议ION交易数据存储IPFS上。

在unity中，使用XML将数据类转化为本地文件，作为配置信息使用

【PySpark学习笔记一】弹性分布式数据集RDD

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)