几行代码即可高效创建数据集，谷歌开源 TFRecorder - 代码天地

几行代码即可高效创建数据集，谷歌开源 TFRecorder

业界资讯 2020-08-11 08:51:19 阅读次数: 0

在训练计算机视觉机器学习模型时，数据加载常常会成为性能瓶颈，导致在等待将数据加载到模型中时 GPU 或 TPU 资源的利用率不足。以 TFRecord 格式存储数据集是一个行之有效的方法，然而，创建 TFRecord 通常需要大量的复杂代码。

于是，谷歌近期开源了 TensorFlow Recorder（即 TFRecorder）项目，旨在简化 TFRecord 的创建流程。TFRecord是一种二进制文件格式，处理数据相对高效，但要将其他数据转为 TFRecord 较为麻烦，通常需要编写一个数据管道来解析结构化数据，从存储中加载图像，然后再将结果序列化为 TFRecord 格式。而此次开源的 TFRecorder 能够直接从 Pandas dataframe 或 CSV 等格式写入 TFRecords，无需再编写复杂的代码。

使用 TFRecorder 创建 TFRecord 只需要几行代码，运行方式如下：

import pandas as pd
import tfrecorder
df = pd.read_csv(...)
df.tensorflow.to_tfrecord(output_dir="gs://my/bucket")

TFRecorder 期望写入的数据与 Google AutoML Vision 的格式相同，也就是类似 pandas dataframe 或 CSV 的格式，例如：

split	image_uri	label
TRAIN	gs://my/bucket/image1.jpg	cat

目前，TFRecorder 支持的数据格式还很有限，将来会进一步扩展，以支持使用任何格式的数据。

对于更庞大的数据集，TFRecorder 还提供了与 Google Cloud Dataflow 的连接性，扩展到 DataFlow 仅需要多几行代码配置。

关于 TFRecorder 的更多信息，可查看谷歌开源博客的介绍：https://opensource.googleblog.com/2020/08/introducing-tensorflow-recorder.html

猜你喜欢

转载自www.oschina.net/news/117843/google-opensources-tfrecorder

几行代码即可高效创建数据集，谷歌开源 TFRecorder

训练定制属于自己的TFRecorder格式

MySQL数据库安装教学，只需几行代码即可

谷歌浏览器地址转换成二维码的插件，只需几行代码即可实现

一个高效的TensorFlow数据集前处理代码

简单的几行代码封装一个文字入场动画组件，复制即可

亚马逊创建并开源数据集，用于理解不同语言的名称

谷歌开源首个「方言」数据集：让机器翻译更地道

[开源代码与数据集]文字检测与识别

谷歌开源高效、跨平台的序列化库FlatBuffers

谷歌开源更快、更高效的 TensorFlow 运行时 TFRT

开源数据集链接

谷歌开源内部代码评审规范

谷歌开源的代码评审规范，值得借鉴！

同一天这是巧合吗？吴恩达、谷歌、Facebook纷纷开源数据集

CVPR 2022 | 这个CV数据集生成器火了！谷歌开源Kubric：支持13类复杂CV任务

谷歌开源GSO：3D扫描数据集：17大类、1030个家用物品、13GB

Swift几行代码解决UITableView空数据视图问题

几行php代码把数据格式化成树形结构

谷歌GDELT数据下载代码

几行代码写RPC

WebView（几行代码实现）

几行代码安装，免费做图无上限：Stability AI公布DreamStudio开源版本！

Stability AI 正式开源！几行代码安装，免费做图无上限！

谷歌 colab调用 Kaggle 数据集

数据集的创建（digits）

Tensorflow创建数据集

Tensorflow创建数据集

医学图像开源数据集

目前开源数据集整理

今日推荐

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

虽然老乡鸡开源的不是代码，但背后的原因却让人很暖心

富文本编辑器 Quill 2.0 重磅发布，特性、可靠性与开发者体验大幅提升

周排行

使用Redis中间件解决商品秒杀活动中出现的超卖问题（使用Java多线程模拟高并发环境）

野指针及c++指针使用注意点

redis 3.0　新特性

(翻译)火狐操作系统javascript API

微信小程序开发入门

mysql数据查询之五子句(where、group by、having、order by和limit)

Codeforces Round #517 Div. 1翻车记

在caffe 中实现Generative Adversarial Nets（二）

企业级漏洞扫描工具

java byte数组与String互转

每日归档

更多

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)

2024-04-15(42)

2024-04-14(0)