Uber开源深度学习分布训练库Petastorm

2018-9-27 14:01| 发布者: joejoe0332| 查看: 1197| 评论: 0|原作者: oschina|来自: oschina

摘要: Uber 近日宣布开源 Petastorm，这是由 Uber ATG 开发的数据访问库，可直接基于数 TB 的 Apache Parquet 格式数据集进行单机或分布式训练和深度学习模型评估。Petastorm支持流行的基于Python的机器学习（ML）框架，如 ...

Uber 近日宣布开源 Petastorm，这是由 Uber ATG 开发的数据访问库，可直接基于数 TB 的 Apache Parquet 格式数据集进行单机或分布式训练和深度学习模型评估。Petastorm支持流行的基于Python的机器学习（ML）框架，如 Tensorflow、Pytorch 和 PySpark ，也可以直接用在 Python 代码中。

通常，我们通过连接来自多个数据源的记录来生成数据集。该数据集由 Apache Spark 的 Python 接口 PySpark 生成，稍后将被用在机器学习训练中。Petastorm 提供了一个简单的功能，可以使用 Petastorm 特定的元数据扩展标准的 Parquet ，从而使其与 Petastorm 兼容。

使用 Petastorm ，消耗数据就像在 HDFS 或文件系统路径创建和迭代读取对象一样简单。Petastorm 使用 PyArrow 库来读取 Parquet 文件。过程概述图如下：