独家｜一文了解Kaggle的开源数据集（附代码）

作者：Vanessa Sochat

翻译：王雨桐

校对：冯羽

本文约5400字，建议阅读12分钟。

本文将从不同角度介绍Kaggle的开源数据集资源。

本文作者是斯坦福研究计算和斯坦福医学院的软件开发工程师。她是斯坦福Singularity的主要开发人员，是为斯坦福提供科研支持的带头人，也是Singularity Hub和Singularity Registry的首席开发者，这两者优化了基于容器的工作流部署和“科学即服务”能力。本文最初发表于其个人博客。

附博客地址：https://vsoch.github.io/

数据共享非常困难，但众所周知的是它在探索和回报上有很大潜力。一个典型的“共享操作”就像用移动硬盘传播信息，将压缩文件放在大学或云端服务器，或在一个安全的大学集群中存储大量数据（但会经常担心它被清除）。这是最理想的方法吗？这足够简单易行吗？为了回答以上问题，我们要考虑处理数据集需要经过的流程。如下所示：

独家｜一文了解Kaggle的开源数据集（附代码）

事件的流程往往是循环的，因为数据的产生往往是一个流。从步骤1到步骤6，唯一让数据停止流动的理由是停止搜集数据。最理想的情况下，所有步骤可以自动实现。步骤1可能是核磁共振扫描图像的产生，步骤2可能是自动将初始形式转化为研究者所需形式，步骤3将其转移到私有的集群存储，步骤4被研究团队使用，随后步骤5和6（如果流程全部发生）是额外工作用来进一步处理数据并将其转移到共享地址。

通常情况下，我们在步骤4停止，因为此时足以满足实验要求、完成分析及论文撰写。讽刺的是，步骤5和6常常会有意外的收获。但是不言而喻的是，如果我分享数据集后，你抢先一步发表论文，我就会一无所获。数据类似于橙子，在放弃这个橙子之前要榨出它所有汁水，所以我当然不想这么做。但是有争议的是，如果分享数据集本身可以完成论文（或类似的成果）并且步骤4和5很简单，会有更多的数据共享。这就是我今天要讨论的主题，尽管没有可用的结论，我将告诉你分享Kaggle数据集非常简单。

附Kaggle数据集地址：https://www.kaggle.com/datasets

变动数据

译者注：变动数据这个概念作者在其他文中提及，对变动数据的定义是未来一种理想的状态下，研究者可以专注于提出问题，软件工程师会为其提供数据。

我曾经讨论过变动数据的概念。总之，随着新数据的出现，我们可以更新对世界的理解以及一些有趣问题的答案。把知识比作静态的PDF并不恰当，因为它只代表一个时间点的状态。相反，变动数据体现我们为了证实或否认假设所积累的知识是变化的。为了将这种理想状态变为现实，我们要能轻易地满足其需求。现在，共享数据是刊物发表后的人工操作。许多期刊鼓励或要求这种行为，研究人员可以把某些时间点的数据集上传到各个平台。尽管这种做法聊胜于无，但我认为这不是了解世界最好的方式。相比于静态文章，我们应该能把一组数据输入到算法中，然后得到一个新的答案。我们希望在数据产生时自动完成数据共享，并可供所有想研究的人使用。现在看来这个目标可能过于崇高，但我们可以想象在这两个极端中间的情况。如何通过一个简单的流程来自动生成和共享数据集？可能如下所示：

独家｜一文了解Kaggle的开源数据集（附代码）

步骤4到6同上（研究员完成分析），但不是一个组织独享数据，它可供数千人使用。变化在于我们在步骤3增加了持续集成这个助手，使处理和共享数据变得容易。我们往往认为持续集成（CI）用于测试或部署，但是它在数据共享中也是有价值的工具。基于这个想法的本质，我们将它命名为“持续数据”。一旦数据被处理并传输到研究组的存储中，它也可能经历持续数据的步骤，将其打包以便共享。

小结：

我们需要在存储这一步中激发数据共享，并为研究者提供支持。机构要配备足够的数据工程师，并优先开发用于此任务的组织标准和工具。与此同时，小型研究计算小组可以帮助研究者完成目标。研究者应寻求帮助来分享他们的数据集。

Kaggle API

尽管更大的，机构层面的资源会更理想，但同时我们可以利用开源的免费资源，如Kaggle。对于初期的科学再现性，我认为Kaggle具备Github那样的潜力。如果共享数据集是简单而有趣的并且有潜在的回报，Kaggle可以对成规模的探索和协作产生影响。但我们必须从某个地方开始！我决定首先展示我可以使用Kaggle API来上传数据集。在网页接口中实现相当容易，而且通过命令行执行也很容易。简而言之，我们所需要的只是一个包含数据文件和元数据（json文件）的目录，我们可以将其指向API客户端。例如，这里是我上传的一个数据集：

附Kaggle API地址：https://github.com/Kaggle/kaggle-api

独家｜一文了解Kaggle的开源数据集（附代码）

datapackage.json用来描述上传的内容。

独家｜一文了解Kaggle的开源数据集（附代码）

那么，向别人共享数据集以供使用和探索有多难呢？您可以下载证书来对服务进行身份验证。然后将文件（.tar.gz或.csv）放在文件夹中，创建json文件，并将工具指向它。这很简单，你能在没有任何额外帮助的情况下完成所有事情。将这样的脚本插入到一些持续集成中，以便在将数据集添加到存储时更新数据集，这是非常简单的。

你的工具！

我创建了一个Docker容器，它提供了一个简单的示例，用于与Kaggle API交互并生成数据集。我将介绍脚本的基本逻辑。Kaggle命令行客户端在很多任务上完成得很好，但是作为开发人员，我希望更多地控制元数据规范和文件清理创建等类似的事情。我也希望它能容器化，这样我就可以做一个与主机隔离的创建操作。

附案例链接：https://github.com/vsoch/kaggle附Docker链接：https://hub.docker.com/r/vanessa/kaggle/

构建容器

以下在Docker Hub上提供，你也可以构建自己的容器：

独家｜一文了解Kaggle的开源数据集（附代码）

我没有将创建脚本作为切入点，因为我希望交互成为一个交互式的“进入到容器中并理解发生了什么。”你可以进行如下操作。

独家｜一文了解Kaggle的开源数据集（附代码）

请注意，我们将把Kaggle API提供的证书绑定到root用户的home目录当中，以便用户端发现到它们，并且我们将通过加 -v 后缀的方式指定目录与数据文件（我们上传的数据集）的关联：现在所讨论问题中的数据集是一个恐龙的Zenodo ML的数据集，具体来说，它是将numpy数组转化为实际png图片的数据样本。对于感兴趣的人，这里提供了用于重新组织和生成数据子集的脚本。这样做的初衷是因为我根本无法分享Kaggle上的恐龙数据集（太大了！）我的想法是共享一个可用的子集，感兴趣的人可以下载整个数据集。如果您感兴趣的话，完整的数据集如下。(https://www.kaggle.com/stanfordcompute/code-images)

附Dinosaur Dataset地址：https://vsoch.github.io/datasets/附 Zenodo ML地址：https://vsoch.github.io/datasets/2018/zenodo/#unmount-without-sudo附脚本地址：https://github.com/vsoch/zenodo-ml/blob/master/preprocess/2.organize_by_language.py

生成数据集

脚本create_dataset.py位于进入的工作目录中，该用法将接受您希望生成数据集的参数。我们可以在没有参数的情况下运行脚本以查看详细信息，

独家｜一文了解Kaggle的开源数据集（附代码）

我在/tmp/data/ARCHIVE中有我的数据文件（.tar.gz files），所以首先我为它们准备了一个空格分隔的完整路径列表：

独家｜一文了解Kaggle的开源数据集（附代码）

我想把它们上传到一个叫做 vanessa/code-images的新数据集。命令如下：

独家｜一文了解Kaggle的开源数据集（附代码）

以上提到的参数解释如下：

keywords是逗号分隔的关键词列表 (没有空格!)
files是要上传数据文件的完整路径
title是赋予数据集的标题(有空格时需要加引号)
name 是数据集本身的名字 (不能包含空格和特殊符号，最好加引号)
username 是kaggle的用户名，或数据集所属的机构名称

这将会生成一个数据包的临时目录

独家｜一文了解Kaggle的开源数据集（附代码）

你可以把你的文件加入其中，例如以下是我在临时文件夹里填充的内容：

独家｜一文了解Kaggle的开源数据集（附代码）

回想起来，我也不需要在这里复制文件，但我这样做是因为我不喜欢对原始数据进行任何操作（以防意外）。这样的话，工具将显示元数据文件（上面已经显示的一个），然后开始上传。这可能需要一些时间，完成后它会显示一个URL！

独家｜一文了解Kaggle的开源数据集（附代码）

非常重要！有一种后处理的情况，这可能需要更多的时间（考虑到上传的规模大小，它确实花了我这么多时间）。直到第二天早上，数据集才存到URL中，所以你要有足够的耐心。在它完成操作以前，你只能得到404。你可以去跑步，或者当天到此为止。由于数据集需要额外的元数据和描述/助手，因此建议在可用时访问URL，并添加图像、描述、示例等。上传(默认使用我的工具)是私有的，这样用户可以在公开之前检查内容。这是体力劳动吗？对于第一次上传，答案是肯定的，但是数据集的后续版本不一定需要它。同时，工具也在快速增长和变化，你应该期待更好的变化！

可重复科学展望

机构需要格外重视数据，并帮助研究者承担管理数据的重任。研究人员应该能获得支持来管理数据，然后使其具备可编程的访问性。这必须超越传统图书馆提供的“档案”，深入研究API、通知、部署或分析触发器。虽然我们没有这样的系统，但它始于简单的解决方案，可以轻松创建和共享数据集。我希望计算发生位置（我们的研究计算集群）和数据存储位置（并通过上传或API自动共享）之间建立密切的关系。如下所示：

独家｜一文了解Kaggle的开源数据集（附代码）

通知可以包括以下任何范围1）提醒另一个新数据的研究者，2）触发一个CI作业从存储重新上传到一个共享位置，或者3）触发某个容器新版本的构建和部署，其依赖于某些数据。

我们需要数据工程师

一个机构需要分配资源和人员，仅仅用于为研究者提供数据。而不是新的PI需要每次都从头开始，完成实验室收集，整理，然后处理数据。收集数据的机器应该收集它，并按规定格式将其发送到指定位置。

我们需要协作平台

我相信未来研究者可以合作研究。他们利用其他研究者提供的数据源，在协作平台上完成某种类型的出版物。感觉就像一种“如果你建造平台，研究者会参与”的场景，有趣的问题是：“由谁来建造它？”

现在，我们的计算集群就像狂野的西部！

当然，我们有当地执法部分来防止不受欢迎的牛仔误入野生沙漠（文件和目录许可），但主要是由不同的小组决定如何组织他们的文件。因此我们看到如下：

我们忘记了文档在哪里
我们忘记了文档是什么
用于论文的数据和脚本丢失和被遗忘
每一个空间看起来都不一样

我们目前所面临的问题-我们有一些新的数据集要处理，但是没有足够空间，所以我们用电子邮件发送我们的研究计算来问为什么（我能有更多空间吗？）然后发送电子邮件到我们的实验室请求“清理这些文件！” 然后再删除一些我们曾认为非常重要的数据，但是它不再重要了，因为“磁盘空间不足。”

独家｜一文了解Kaggle的开源数据集（附代码）

想象一个可能的场景，研究者不用完全负责管理数据、关注数据和相关元数据。他们可以专注于科学。数据工程师会为他们提供帮助，同时有异常多的细节和正常人无法关注到的元数据。不做这件事的成本是不可避免的浪费时间，丢失和发现事物，不能复制工作，或者从容易地得到数据指向（复杂地）使用数据。

尚存的挑战

我们仍然需要考虑一些潜在的挑战：

和学术出版的联系是什么？

我持续关注Kaggle是因为还没有找到一个类似的成熟平台来处理数据集。我对Kaggle的感觉是“让我们享受过程，学习并利用机器学习”或“让我们通过竞赛争夺奖励。”我遇到过研究生想用他的业余时间尝试参加比赛来赢得一些东西，或者学习和娱乐，但并不是为了深入研究。正如我所理解的，Kaggle没有适合学术研究人员的氛围。但当我想到这些时，“竞争”和“协作”并没有太大的差异，两者都是很多人同时工作来解决类似问题。这两个情况都有挑战的目标，和可以评估的度量标准来评价一个解决方案的优劣。有趣的是，Kaggle像Github一样，是一个相对无偏见的平台，我们可以选择以不同的方式使用它。学术研究人员可以选择“竞争”，这实际上包括研究人员一起回答一个科学问题。需要完善补充的是一些附加的规则和工具，以便为参与者和数据提供者提供发表的途径并获得应有的奖励。

如果我们想鼓励数据共享，从而推动探索，我们需要解决这个缺失的激励因素。研究生或研究人员可应当能通过像Kaggle这样的平台来进一步发展自己的事业。这应该很容易并且很有趣。如果一场比赛根本不是一场竞赛，而实际上是一次合作。一个研究生会和他的PI说：“嘿，我发现这个kaggle数据集在解决类似的问题，我可以尝试一下这种方法？“PI会肯定他的想法，因为它和学生独立解决问题是一样的，但有一些数据需要预处理，还有一些问题要讨论。研究生将进入其内核入口，以优化一些度量，并努力自动总结成某种类似论文出版物。评论将在一直伴随这些步骤的推进，因为工作将是完全开放的。所有那些贡献的人，从创建初始数据集到提交讨论解决方案，都将被得到奖励，因为他们已经参与了出版。如果进展顺利，问题本身也会被概念性地组织起来，所以我们可以开始映射假设的空间。

我们如何能掌握所有方法？

方法就像容器一样。目前在大多数论文中，他们没有实质性的重复工作。很难从一个文本中得到一个完整的方法论本体和它们与函数的链接（是的，我实际上是从一个研究生院项目开始的，并且早就放弃了它，以支持我的委员会认为有意义的项目。”但是假如我们有代码，这些方法可以自动导出（甚至可能与文档源链接）。未来可能当代码与出版物非常接近时，我们将大幅削减了我们花费在方法部分上的时间。或者因为在容器中提供了方法部分而可以复制工作。

如何处理数据中的敏感信息?

不言而喻，我们要注意去除数据中的敏感信息。想起来这是一件可怕的事情，尤其是在这个时代，似乎不再有隐私之类的东西了。任何数据共享初始化过程或管道必须采取隐私和（如果必要的话）协议去识别。

机构的动力是什么？

这是一个更难的问题。一个机构如何才能仅仅为了数据，将资金投入到人力和资源中？据我所知，一直以来人们都会组成委员会并谈论事情。也许这是需要做的事情，但是很难坐在硅谷，并看着公司跳过闲聊，直接把事情办好。也许刚开始这样并不完美，但万事开头难，后面进展会更顺利。

总结

这就是我现在的想法！我们还没有一个完美的解决方案，但我们有办法分享我们的数据以供其他人探索。我希望Kaggle上的团队能够在激励研究人员方面起带头作用，这将使学术界的软件工程师很容易地帮助研究者分享他们的数据。以下是我要采取的步骤：

创建共享数据的简单工具/示例（本文）
创建共享学术数据集的激励（合作，开源出版物？）
支持一种学者分享文化，并做一些测试案例
寻找研究软件工程师帮助研究人员！

然后出炉啦！我们有开源、协作共享数据集和出版物。说到最后一点，如果你是掌握着有价值的数据集的研究者（即使是杂乱的），并且你想要帮助分享它，请伸出手让我帮助你。如果你有一些想法或思考如何能做一个以上的示例，我希望你能提供帮助。

原文标题：Open Source Datasets with Kaggle原文链接：http://blog.kaggle.com/2018/06/21/open-source-datasets-with-kaggle/

译者简介

独家｜一文了解Kaggle的开源数据集（附代码）

王雨桐，统计学在读，数据科学硕士预备，跑步不停，弹琴不止。梦想把数据可视化当作艺术，目前日常是摸着下巴看机器学习。

独家｜一文了解Kaggle的开源数据集（附代码）

相关推荐