几行代码即可高效创建数据集,谷歌开源 TFRecorder

多智时代 2020-08-11

 几行代码即可高效创建数据集,谷歌开源 TFRecorder

在训练计算机视觉机器学习模型时,数据加载常常会成为性能瓶颈,导致在等待将数据加载到模型中时 GPU 或 TPU 资源的利用率不足。以 TFRecord 格式存储数据集是一个行之有效的方法,然而,创建 TFRecord 通常需要大量的复杂代码。

于是,谷歌近期开源了 TensorFlow Recorder(即 TFRecorder)项目,旨在简化 TFRecord 的创建流程。TFRecord是一种二进制文件格式,处理数据相对高效,但要将其他数据转为 TFRecord 较为麻烦,通常需要编写一个数据管道来解析结构化数据,从存储中加载图像,然后再将结果序列化为 TFRecord 格式。而此次开源的 TFRecorder 能够直接从 Pandas dataframe 或 CSV 等格式写入 TFRecords,无需再编写复杂的代码。

使用 TFRecorder 创建 TFRecord 只需要几行代码,运行方式如下:

相关推荐