submarineas 2018-10-15
点击上方关注,All in AI中国
作者:Maithreyan Surya
在大型数据集上训练机器学习和深度学习模型所需的计算能力一直是机器学习爱好者的一大障碍。但是对于在云上运行的jupyter记事本,任何一个具有学习热情的人都可以进行训练,并获得很好的结果。
(1)Google Colab
(2)Kaggel Kernel
(3)GCP上的Jupyter记事本
(4)Amazon SageMaker
(5)Azure记事本
1)Google Colab
Colaboratory是谷歌公司的一个研究项目,旨在帮助传播机器学习教育和研究。 Colaboratory(colab)提供免费的Jupyter记事本环境,无需设置即可完全在云端运行。它预装了大多数机器学习库,它可以作为完美的地方,你可以即插即用,并尝试依赖的东西和计算不是问题。
笔记本电脑已连接到你的谷歌硬盘,因此你可以随时访问它,并从github上传或下载笔记本电脑。
GPU和TPU启用
首先,你需要为笔记本电脑启用GPU或TPU。
导航到编辑→笔记本设置,然后从硬件加速器下拉列表中选择TPU。
用于检查TPU是否已启用的代码
安装学习库
Colab附带了大多数机器学习库,但你也可以轻松添加未预安装的库。
Colab支持pip和apt包管理器。
apt命令
这两个命令都在colab中工作,别忘了!在命令之前。
上传数据集
有很多方法可以将数据集上传到记事本中
从本地上传的代码
我可以浏览并选择文件。
从谷歌硬盘上传文件
PyDrive库用于从谷歌驱动器上传和文件
你可以获取要上传的文件的ID,并使用上面的代码。
有关从Google服务上传文件的更多资源。
https://colab.research.google.com/notebooks/io.ipynb
从kaggle上传数据集
我们需要安装kaggle api,并添加认证json文件,你可以从kaggle网站(API_TOKEN)下载。
通过从本地计算机上传文件将json文件上传到记事本。
创建一个/.kaggle目录
将json文件复制到kaggle目录
更改文件permision
现在,你可以使用命令从kaggle下载任何数据集
现在,你可以使用以下内容从kaggle下载竞赛数据集,但为此你必须参加竞赛。
你可以在线培训和运行fashion_mnist,而不依赖于此。
https://colab.research.google.com/github/tensorflow/docs/blob/master/site/en/tutorials/keras/basic_classification.ipynb
对于每个对机器学习感兴趣的人来说,Colab都是一个很棒的工具,使用colab的所有教育资源和代码片段都是在官方网站上提供的记事本示例。
https://colab.research.google.com/notebooks/
2)Kaggle Kernels
Kaggle Kernels是一个云计算环境,可以进行可重复的协作分析。
可以在kaggle内核中运行Python和R代码
Kaggle内核在远程计算环境中运行。它们提供所需的硬件。
在撰写本文时,每个内核编辑会话都提供以下资源:
(1)CPU规格
(2)GPU规格
启动内核
一旦我们在kaggle.com上创建了一个帐户,我们就可以选择要使用的数据集并启动新内核,只需点击几下即可。
https://www.kaggle.com/
单击"创建新内核"
你将有一个jupyter记事本启动和运行。在底部将有你可以使用的控制台,在右侧你将有各种选择。
(3)版本
当你提交并运行内核时,你将在交互式会话的单独会话中从上到下执行内核。在完成之后,你将生成一个新的内核版本。内核版本是工作的快照,包括已编译的代码、日志文件、输出文件、数据源等。内核的最新内核版本是内核查看器中向用户显示的内容。
(4)数据环境
为数据集创建内核时,数据集将预先加载到输入目录中的记事本中
你还可以单击添加数据源,添加其他数据集
设置
(1)共享:你可以将内核保密,也可以将其公开,以便其他人可以从你的内核中学习。添加GPU:你可以在内核中添加一个NVIDIA Tesla K80。使用内核而不是本地计算机或你自己的虚拟机的一个主要好处是,内核环境已经预先配置了支持GPU的软件和软件包,这可能非常耗时且设置起来令人沮丧。要添加一个GPU,从内核编辑器导航到"设置"窗格,然后单击"启用GPU"选项。
(2)自定义封装:内核有默认封装,如果你需要任何其他封装,你可以通过以下方式轻松添加它
•只需输入库名称,kaggle将为你下载。
•输入用户名/库名称
这两种方法都可以很好地添加自定义包。
Kaggle是提供数据和计算的完美平台,可以提供所提供的优质数据。它还可以举办各种竞赛,可以通过实验来提高自己的技能。
有关kaggle链接的更多资源,请点击此处。如果你是新手,那么你一定要尝试一下这个非常棒的教程。
https://www.kaggle.com/c/titanic
关于Kgle、colab和机器学习的其他资源跟随Siraj Raval和Yufeng G.
由于我无法在这篇文章中涵盖所有在线训练机器学习模型的服务,因此本文将有第二部分。
所有需要学习和实践机器学习的资源都是开源的,可在线获取。从计算、数据集、算法以及免费在线提供的各种高质量教程,你只需要互联网连接和学习的热情。
我希望这篇文章有用,因为它解决了开始走向机器学习和数据科学之路的业界人士所面临的主要问题。