谷歌宣布TPU全面开放:每小时6.5美元,数量有限!

hfzd 2018-02-13

2016 年 5 月,谷歌向世人发布了一款特别的机器学习专属芯片:张量处理器(Tensor Processing Unit,TPU),去年又推出了它的第二代产品(Cloud TPU)。这是一种被认为比 CPU 、甚至 GPU 更加高效的机器学习专用芯片。作为科技巨头的谷歌早已把这种高度定制化产品应用在了自己的服务器中,而本周一,谷歌宣布其他公司马上也将可以享受新型芯片带来的计算服务了。

谷歌宣布TPU全面开放:每小时6.5美元,数量有限!

谷歌在一篇博客文章中正式宣布,将以“有限数量”向谷歌云客户开放张量处理器(Tensor Processing Unit,简称TPU)服务。

TPU是谷歌为机器学习而设计的人工智能定制芯片。将TPU开放,对于选择在谷歌云平台上运行机器学习模型的客户来说,可谓好事一桩。但谷歌这次开放的TPU数量有限,而且按时收费,每小时成本为6.50美元。

通过谷歌云平台(GCP)提供的 Cloud TPU beta 版自 2018 年 2 月 12 日起可用,其旨在帮助机器学习专家更快地训练和运行 ML 模型。

谷歌宣布TPU全面开放:每小时6.5美元,数量有限!

谷歌的TPU是公司为其TensorFlow框架编写的用于运行机器学习工作负载的定制芯片,现在可供开发人员使用。

谷歌设计芯片给出的承诺是,他们可以运行特定的机器学习工作流程,比现在大多数开发人员使用的标准GPU要快得多。对于谷歌来说,这些TPU的优点之一就是它们的功耗更低,开发人员可能不太关心的事情,但是这使得Google能够以更低的成本提供这项服务。

九个月前,该公司就曾在其I / O开发者大会上首次宣布了TPU(并将其提供给数量有限的开发人员和研究人员)。每个云端TPU都具有四个有64 GB高带宽内存的定制ASIC。据Google称,单个TPU板的最高性能是180 万亿次。

已经使用TensorFlow的开发人员无需对其代码进行任何重大更改即可使用此服务。但是,目前云端TPU在点击按钮时并不完全可用。正如Google所言,“为了管理访问权限”,开发人员必须申请一个Cloud TPU配额并描述他们想要对该服务执行哪些操作。一旦他们进入,使用量将按照每云TPU和小时计费为6.50美元。相比之下,美国标准Tesla P100 GPU的价格为每小时1.46美元,但是它的最高性能约为FP16性能的21万亿次。

Google在机器学习方面的声誉必将推动这些云端TPU的许多新用户。然而,从长远来看,可能同样重要的是,这给了Google Cloud一种与AWS和Azure区分开,从这个世界脱颖而出的方式。毕竟,大多数人现在都提供相同的基本云计算服务,而容器的出现使得将工作负载从一个平台转移到另一个平台变得更加容易。而通过TensorFlow和TPU的结合,Google现在可以提供一些短期内无法匹配的服务。

云 TPU 如今在数量受限的情况下可用,价格以秒计费,大约为每云 TPU 每小时 6.50 美元。

注册地址:https://services.google.com/fb/forms/cloud-tpu-beta-request/

谷歌博文如下:

谷歌宣布TPU全面开放:每小时6.5美元,数量有限!

Google的机器学习利器Cloud TPU,从今天开始面向更多用户开放了。

Cloud TPU今天发布了beta版,这一版本通过谷歌云平台(Google Cloud Platform, GCP)提供,可以帮更多机器学习专家更快地运行模型。

Cloud TPU是谷歌设计的硬件加速器,专为加速、扩展特定的TensorFlow机器学习工作负载而优化。每个Cloud TPU包含4个定制化的ASIC,单块板卡的计算能力达到每秒180万亿次浮点运算(180 teraflops),有64GB的高带宽内存。

这些板卡可以单独使用,也可以通过超高速专用网络连接起来,形成“TPU pod”。今年晚些时候,Google会开始通过GCP供应这种更大的超级计算机。Google设计Cloud TPU旨在于针对性地为TensorFlow工作负载提供差异化性能,让研究人员能更快地进行迭代。

例如:

  • 你能通过自定义、可控制的Google Compute Engine虚拟机,对联网的Cloud TPU进行交互式的、单独的访问,而不用等待自己的工作在共享计算集群上排队。

  • 你可以连夜在一组Cloud TPU上训练出同一个模型的几个变体,第二天将训练出来的最精确的模型部署到生产中,而不用等几天、甚至几周的时间才来训练关键业务机器学习模型。

  • 不到一天的时间,你就可以在ImageNet上把ResNet-50模型训练到75%的精度,成本不到200美元。

    Google还专门为此准备了一份教程:https://cloud.google.com/tpu/docs/tutorials/resnet

更简单的机器学习模型训练

过去,为定制ASIC和超级计算机编程需要深入的专业知识技能。相比之下,要对Cloud TPU编程,用高级TensorFlow API就可以了,Google还开源了一组高性能的云TPU模型实现,上手更简单:

  • 图像分类模型:

    ResNet-50 https://cloud.google.com/tpu/docs/tutorials/resnet

    其他图像分类模型https://github.com/tensorflow/tpu/tree/master/models/official

  • 用于机器翻译和语言建模的Transformer:

    https://cloud.google.com/tpu/docs/tutorials/transformer

  • 用于对象检测的RetinaNet:

    https://github.com/tensorflow/tpu/blob/master/models/official/retinanet/README.md

Google在博客中表示,经过对性能和收敛性的不断测试,这些模型都达到了标准数据集的预期精度。

以后,Google会逐渐推出更多模型实现。不过,想要更进一步研究的机器学习专家也可以用他们提供的文档和工具,自行在Cloud TPU上优化其他TensorFlow模型。

现在开始用Cloud TPU,等到今年晚些时候Google推出TPU pod的时候,训练的时间-精度比能得到惊人的提升。

在NIPS 2017上,Google曾宣布ResNet-50和Transformer两个模型在完整TPU pod上的训练时间,都从大半天下降到了30分钟以内,不需要改动任何代码。

可扩展的机器学习平台

云TPU还简化了机器学习计算资源的规划和管理:

你可以为团队提供最先进的机器学习加速,并根据需求的变化动态调整生产力。

也可以直接用经过Google多年优化的高度集成机器学习基础设施,无需投入大量金钱、时间、专业人才来设计、安装、维护现场机器学习计算集群,不用考虑供电、冷却、联网、存储要求等问题。

谷歌宣布TPU全面开放:每小时6.5美元,数量有限!

Google Cloud TPU经过预先配置,不需要安装驱动程序,因此,也不用想方设法让一大群工作站和服务器的驱动程序保持最新。和其他Google云服务一样,有复杂的安全机制会保护着你的数据,这一点不用担心。

Google表示要为客户的每个机器学习负载提供最适合的云服务,除了TPU之外,他们还提供英特尔Skylake等高性能CPU,和包括英伟达Tesla V100在内的高端GPU。

开始使用

Cloud TPU从今天开始提供,数量有限,按秒计费。每个Cloud TPU每小时6.5美元。

要使用beta版的Cloud TPU,需要填个表,描述一下你要用TPU干什么,向Google申请配额:https://services.google.com/fb/forms/cloud-tpu-beta-request/

2月27日,Google还要开一场在线讲座,再详细地谈一谈Cloud TPU。

在Google的博客文章中,提到了两家客户使用Cloud TPU的感受。

一家是投资公司Two Sigma。他们的深度学习研究现在主要在云上进行,该公司CTO Alfred Spector说:“将TensorFlow工作负载转移到TPU上,大大降低了编程新模型的复杂性,缩短了训练时间。”

另一家是共享出行公司Lyft。深度学习正在成为这家公司无人车研究的重要组成部分。

更多关于Cloud TPU的信息,可以去官方网站看一看:https://cloud.google.com/tpu/

相关推荐