CODEWORLD 2019-11-06
以后参加Kaggle竞赛,可以直接派出AutoML自动训练AI怪兽参赛了。谷歌今天宣布,将Cloud AutoML服务深度集成到Kaggle平台,虽然是付费服务,但提供了一揽子免费试用和补贴方案。
谷歌宣布,将用于训练机器学习算法的Cloud AutoML服务集成到数据科学平台Kaggle中。
Cloud AutoML是一个基于云的工具包,提供一个拖放界面来训练AI模型。使用AutoML,任何人都可以创建定制的机器学习模型,只需极少的工作量和机器学习专业知识。
Kaggle是一个供数据科学家和其他机器学习爱好者探索、分析和分享他们的工作的在线社区,被谷歌于2017年收购。Kaggle也是全球最大的机器学习及数据科学竞赛平台,就在今天,谷歌宣布Kaggle社区最近达到了一个新的里程碑,用户数突破了350万。
谷歌表示,通过将Cloud AutoML与Kaggle整合在一起,它正在推进其使命,即“通过为他们提供在该领域领先所需的技能和工具,使我们的数据科学家社区更加强大”。
Cloud AutoML允许用户从软件开发工具包或基于web的用户界面获取数据,设置一些参数,然后根据这些数据训练模型;经过训练的模型随后可以直接部署到谷歌的云基础架构上。
新的集成将使Kaggle用户能够在Jupyter Notebooks中直接使用 Cloud AutoML SDK,这是数据科学家用来创建和共享包含实时代码、公式、可视化和叙述性文本的开源web应用程序。
Kaggle产品经理Devvret Rishi说:“今天发布的重点是使我们的社区能够在Kaggle Notebooks上直接使用SDK。”
Cloud AutoML是一项付费服务,不过它为初学者提供了免费试用方案。谷歌还为用户全年提供谷歌云平台(GCP)积分,以帮助补贴在Kaggle上使用AutoML的成本,并且,所有注册GCP的新Google帐户都将获得$ 300的补贴。
今年6月,谷歌还将BigQuery数据仓库服务和Kaggle集成在一起。该集成允许BigQuery用户使用快速SQL查询,在SQL中训练机器学习模型,并在Kaggle的Jupyter笔记本环境中进行分析,称为Kaggle Kernels。
根据谷歌的说法,这种方法的好处在于,用户无需实际移动或下载数据来查询数据或对其进行机器学习。一旦用户的Google Cloud帐户链接到内核笔记本或脚本,就可以使用BigQuery API客户端库直接在笔记本中撰写查询,针对BigQuery运行查询,并使用数据进行几乎任何类型的分析。
AutoML在今年早些时候就引起了人们的关注,它在Cloud Next '19的Kaggle Days举行的机器学习竞赛中一度脱颖而出,只是在最后时刻才被一组数据科学家以微弱优势淘汰。
今年4月,在长达8个半小时的Kaggle Days数据处理挑战上,有一个团队非常特别:这个由3名谷歌研究员组成的小组不打算自己上场,而是用一款名为AutoML的AI软件参与竞赛。
其他200多名参与者来自Kaggle平台的顶级梯队,他们组成多个小组,任务是“从一家匿名汽车零部件制造商那里得到数据,通过这些数据,他们要预测工厂产出中的不良批次”。
谷歌研究员Quoc Le与同事Ming Chen和Lu Yifeng Lu一起领导了AutoML项目
现场挂着一块大屏幕,上面是比赛即时排行榜,参赛的程序员就在这块大屏幕的阴影下辛勤工作。程序员们通过向网站提交代码进行测试来衡量他们在比赛中的成果,分数会实时显示在屏幕上。
对于AI可能取代顶尖程序员这一点,Kaggle.com上排名第一的“大师”Vladimir Iglovikov表示怀疑,在场的大多数人也都认为,AI软件不可能与世界顶尖的数据科学家的创造力相媲美。
然而,比赛进行几个小时后,让人震惊的结果出现了,AutoML提交了第1个自动生成的代码,在排行榜上名列第2,领先了绝大多数小组。但这对于谷歌团队来说一点都不奇怪,该软件是3年前他们花巨资开发的,一开始的目的就是要替代自己的部分工作。
领导了谷歌AutoML开发的AI研究员Quoc Le感到兴奋。他和团队在过去的几场Kaggle比赛中测试了AutoML,通常都需要花费几个月而不是几个小时。他们认为在现场比赛中AutoML能取得前10%的成绩就算是成功了。
到了下午3:30,AutoML的胜利似乎已成定局,最接近它的人类团队也落后很远。当选手们在下午5:30集合查看最终比分时,欢呼声爆发了:AutoML 排名第二。
AutoML赢了99%的顶尖人类程序员。
而且在竞赛中,使用AutoML的团队只需要付出较少的精力,就能迅速获得出色的性能,并且无需领域专业知识或监督。在数据准备上花费时间很少,而在特征工程、模型选择和超参数调参上几乎不用花什么时间。
此外,在另一个IEEE的竞赛中,AutoML的时间效率的优势更加突出,数千团队花了几周的时间,才能在排行榜上大幅超越AutoML的基准水平。
上图为该赛事前四周的提交分数(个人得分),与比赛开始时发布的AutoML Tables基准分数(绿线)。蓝点虚线表示每日提交分数的90%分位水平。AutoML Tables基准在比赛的前两周中都超过了这一水平
AutoML的简单性和有效性为存在数据科学问题需求的人群(这些人不一定具有深厚的数据科学背景)提供了创建性能强大的模型的可能。
大酬宾:Kaggle用户使用AutoML,每个关联账号补贴300刀
Cloud AutoML可帮助用户针对各种任务集(视觉,语言到结构化数据)构建自定义机器学习模型。每种应用的实际用法各不相同,但所有方法都遵循从SDK或Web UI提取数据的一般模式,用户可以调节设置,并输出训练好的模型。今天的重点是,我们的社区已经能够直接在Kaggle Notebook中使用SDK。
Kaggle与AutoML的集成遵循了我们先前将BigQuery引入Kaggle Notebook的脚步。
首先,只需关联用户的GCP帐户并授权访问要使用的云服务,同时启用云存储将使AutoML轻松访问您的数据。
关联Google帐户后,需要仔细检查云帐户是否已准备就绪。为此,请确保已为GCP项目启用了机器学习API和结算设置。AutoML是一项付费服务,为了使更多的Kagglers可以使用AutoML,我们计划在全年内提供GCP积分,以补贴使用该服务的费用,所有注册G谷歌云平台的新帐户都将获得300美元的额度。