独家|日本机器学习领军人杉山将:为什么说弱监督学习是未来

bassersai 2017-08-21

独家|日本机器学习领军人杉山将:为什么说弱监督学习是未来

前不久结束的第三届CCAI大会,日本人工智能和机器学习领域的新一代领军人物杉山将(Masashi Sugiyama)为我们带来了一场关于弱监督机器学习的精彩演讲,这是机器学习领域少有的来自日本的声音。

作为日本理化学研究所先进智能研究中心主任,杉山将是这个领域最知名的学者之一。他在机器学习领域发表过很多重要的理论,他写的那本《图解机器学习》很早就被翻译成中文。

为了给到读者更多信息,AI科技大本营独家约采了杉山将,就弱监督学习的很多细节及其实现,以及他本人最新的研究方向和成果等进行专访,杉山将还谈到了日本在AI和机器人领域的研究现状。enjoy!

翻译 | AI科技大本营(rgznai100)

编辑 | JeyZhang

AI科技大本营:您之前给大家做了《弱监督机器学习的研究进展》的演讲,内容非常有趣,也比较前沿,您是否能够简要地谈谈什么是弱监督学习呢?

杉山将:基于大数据的机器学习是当今的一个热点,这的确是一个很重要的研究方向,其技术也被很好地应用于一些领域。但是对于某些领域,我们有时获取不到足够量的数据。在日本的RIKEN数据研究中心,我们致力于医疗、基础设施和自然灾害等领域的研究,对于这些领域而言,同样是难以获取大规模数据的,但我们仍然想用机器学习技术来改善这些领域中的问题。

这里面涉及了很多的技术分支,有些人使用了迁移学习的技术,利用其他任务上的数据来解决自己的问题,比如杨强教授和Fei Sha教授等,他们是机器学习领域的知名学者。我对迁移学习也很感兴趣,在一年前也出版了一本相关的书籍。另外,周登勇教授提到的数据众包 (crowd sourcing) 是一种廉价获取大规模数据的方式,但数据质量上会有一定的损失。

以上提到的都是比较热门的研究方向,但还有一个热门,就是弱监督机器学习。我们知道,通常在小数据上进行机器学习并不太容易,因为统计意义上机器学习的误差与

独家|日本机器学习领军人杉山将:为什么说弱监督学习是未来

成正比(其中n表示数据量大小),因此数据量越小产生的误差越大。如果在目标任务上没有足够多的先验数据,我们很难把这个任务做好。然而,作为机器学习领域的研究员,我们希望能够有一种普适、通用的方法来解决各个任务上的问题,这里我们将这些任务看作是相互独立的。

我们所提出的方法,是希望在获取成本较低的数据上进行机器学习,一个最简单的例子就是半监督学习。假设我们有少量的标注数据和大量的未标注数据,未标注数据的获取几乎没有成本,这得益于互联网和传感器技术的发达。半监督学习是最近十五年以来一直研究的方向,其中有一些比较成功的研究成果,当然还有一些看上去没有那么成功的,不过我认为那些看上去不怎么成功的研究成果只是因为还不被看好而已。

我们这次考虑了多种不同的设定。一种是我们有两类半监督的数据,有时这是一个难题,有时我们也可以在没有先验数据的条件下很好地解决这个问题。另一种就是PU学习,也就是当我们只有正例数据和未标注数据,但获取这种类型的数据往往比较困难。

AI科技大本营:您之前是说在PU数据集上的学习效果要优于PN数据集吗?

杉山将:这取决于正负样本的比例情况。我们考虑的一个问题是,正例数据和未标注数据的获取成本都比较低,而存在相关关系的数据(PN数据,即正负例数据)的获取成本是较高的。在这种情况下,如果我们有大量的正负例数据,那么PN学习的效率并不高;但如果你有大量的正例和未标注数据,那么PU学习将好于PN学习。而这一点在一些理论研究的实验中已经得到了验证。

AI科技大本营:您提到了半监督学习,请问半监督学习和弱监督学习是一回事吗?

杉山将:弱监督学习是一个更加宽泛的概念。现在有了监督学习和无监督学习方法,而我们对介于两者之间的技术很感兴趣。半监督学习通常是用于某些特定的场景:有许多的未标注数据,而正负例数据都较少的情况。半监督学习是一个已经定义好的术语,而弱监督学习则比较宽泛,弱监督学习对应有3种不同的方法。

AI科技大本营:我知道标注数据的获取成本是非常高的,对于大多数的研究员而言这是一个难题。您刚才也提到了,其中有些人尝试用迁移学习和数据众包的方式来解决。请问为什么您选择了用弱监督学习的方法来解决呢?能否谈谈这背后的故事呢?

杉山将:作为一个研究员,我知道弱监督学习这个领域是很重要和有潜力的,这是我研究的动机。当然,实际中数据众包的方法是很好,我也很感兴趣。但是,以医疗领域为例,医疗数据通常是不允许上传在网络上的,所以我们不能用数据众包的方法来获取。这些数据不是通用的,而是非常隐私的。我在日本有一些工业界的朋友,工业项目的相关数据也是不能上传在网络上的,所以也是无法用数据众包的方法。过去几年,我的工作涉及了多个领域,有一些使用数据众包方法是可行的,但也有些没有用到,所以我们必须尝试其他的方法来应对其他方法解决不了的问题。

AI科技大本营:在您学术生涯的早期,为什么一开始就选择了机器学习作为您的研究领域?

杉山将:当我还是一个计算机专业的大学生时,我对编程实现更加感兴趣。那是在90年代中,我那时很喜欢编程和IT应用,但这仅仅是一个兴趣爱好,我们很难成为编程的专业人士。

编程是有趣的,但这在某种程度上并不够专业,所以我想着做一些数学上的研究,这看上去比较专业,但当时的我还是大学生所以还不了解研究中具体的细节。一些兴趣爱好,例如摄影、音乐这样的,会一直是我的兴趣爱好。但我希望我能变得更加专业,所以我后来转为了计算机专业的数学应用方向,我仍然是计算机专业的,但更关注其数学应用。我当时对人工智能并不太感兴趣,对如何让计算机更加有用更感兴趣。起初,在日本,我们有许多关于机器人的卡通,而这些卡通也伴随我们成长。我们对这些智能的机器人已经很熟悉了,所以很自然我选择了这个方向。但有时,我对其中的数学原理更感兴趣。

AI科技大本营:我记得演讲ppt中有一个图,x轴是线性模型、核函数模型和深度学习模型,在y轴上有监督学习和半监督学习,这让我们感到很新奇,因为我们认为深度学习模型是典型的监督学习,这也是为什么标注数据的获取成本如此高和必须的原因。您说深度学习和无监督学习两者也可以结合,这是一个新的概念,您能详细谈谈吗?

杉山将:某种意义上,深度学习是一个很模糊的概念。 研究员们的观点是:使用深层模型进行研究。 但正如我所说到的,x轴是模型轴, 深度学习模型是其中的一个模型。 模型应该与学习方法相结合,这两者是完全正交的,所以有了监督式的深度学习、无监督式的深度学习,还有深度强化学习。 只要我们有了新的学习方法,就可以与深度学习模型相结合, 这个才应该被称为深度学习。 目前,深度学习往往只是在谈深度学习模型,其实模型和学习方法都是深度学习研究领域的组成部分。

AI科技大本营:如果您所提出的弱监督学习方法成熟了并起作用了,我们能做什么? 如果算法或方法“成长”了,我们又能做什么?

杉山将:在RIKEN中心,我们致力于医学、管理、基础设施、自然灾害等领域的研究。然而,对于这些领域,我们需要能够从小数据中进行学习的机器学习方法。因此,至少在这些领域中,有数百个应用任务可以使用我们所提出的方法。

AI科技大本营:您现在在寻找哪个领域进行技术的应用? 哪个最有前途? 有可能谈谈一些情况吗?

杉山将:在研究应用方面,在这一点上我其实不能说很多。我们有合作伙伴,但还没有确定。就个人而言,我是一个机器学习研究者,我可以谈论自己的那一部分,这个应用已经与合作伙伴完成。我们在做医学诊断,例如癌症或痴呆症的预测和评估。 我们在金融领域方面也有一些工业届的伙伴,但更像是我们为自己的项目做贡献。

AI科技大本营:那么你们是为他们做基础性工作吗?

杉山将:在RIKEN中心,我们对公共问题更感兴趣,如医疗保健、自然灾害和基础设施管理等都属于公共问题,这些也是我们与一些工业界合作伙伴一起的工作。一些合作伙伴也是公共的,如医院和自然灾害研究中心。同时,工业界有些合作伙伴有自己的项目,我们则贡献自己的技术来推动。因此,我们希望通过基础机器学习技术的应用,能够有助于他们未来的发展。

AI科技大本营:在中国,CSDN是目前面向开发人员的最大中文社区,社区大约有1200万开发者。重点是他们希望使用AI技术来构建下一代的应用程序并应用于不同的行业。然而,他们中的大多数都不了解底层的数学,而倾向于使用一些现成的工具库和软件包。你们团队有在创建一些这样的库和工具可供大家使用的吗?

杉山将:就个人而言,我创建了一些简单的MatLab工具箱并且将其放在网上。之后,与我合作的企业伙伴可以将其下载并进行测试,但只有几个较小的原型。当他们真的想要在业务上使用我们的技术时,那么他们应该要开发相应的专业软件,这是他们需要做的。这实际上是一个很好的问题:我们是否应该开发可以在工业界使用的软件包。目前,我不确定,因为它不容易决定,因为应该使用哪个框架我们都还不确定。

AI科技大本营:您是否真的认为这些工具可以被当做一个黑盒来获取信息,就像是一个“有魔力的”盒子?

杉山将:我不敢说“有魔力的”,但我们已经提供用于深度学习环境的软件包,例如PU学习,而这已经放在网上了。

AI科技大本营:对于中国开发者而言,我们很好奇日本的AI开发是怎样的?您能给我们描述一下吗?

杉山将:不太容易描述全部的情况,但AI在我们那也被炒作得很火热! 大家对AI很感兴趣,所以和中国的情况非常相似。在日本我们没有太多的AI工程师和研究人员。我们的机器人行业很发达,但相应的研究人员的数量并没有得到应有的增长,在机器学习方面也是如此。 在中国,大多数优秀学生去美国留学,然后其中有很多学生回到中国开办自己的公司,相当活跃。 而在日本,这种学生的人数非常少,因为青少年人数本来就较少,而且他们对医学等其他领域会更感兴趣。

AI科技大本营:如果我们有对日本留学感兴趣的中国学生,您会对他们有什么建议?

杉山将:这是一个很好的机会,我们非常愿意接受和我们一起工作或学习的人。至少在RIKEN,我们已经接收到了一些中国博士生们的申请,甚至还有来自中国的朋友所介绍的人, 我们也接收中国学生的实习。 同时我也是RIKEN AIP中心的主任,也是东京大学的教授。 即使在东京大学,我们也接收中国的学生。本科生必须懂日语。 实际上在东京大学我有7到8名的中国学生,他们都做得很好!

AI科技大本营:如果您在AIP计划或RIKEN或日本有特别的优势,那么与美国,欧洲或中国相比是怎样的呢?

杉山将:在日本,我们有3个人工智能研究中心,我们是其中之一。我们获得了教育部的支持,这意味着我们可以专注于基础技术的研究,其他两个研究中心则得到经济部和交通部的支持,在某种意义上它们更偏应用。具体的应用当然很重要,但在日本的过去20年里,基础研究被认为并不重要,我们的基础研究资金不足。现在,教育部决定投资AI的基础研究从而创立了研究中心,我们承诺将做10年。深度学习的研究在大约十年前就开始了,最开始是Hinton教授于2006年的那篇论文。十年以来,深度学习现在已经被炒作得很火热,现在我们应该再写出像Hinton教授这样的论文。

所以现在,标准的深度学习是非常受欢迎的,而我们也应该做一些标准的事情,没有人知道未来10年会发生什么。大概在5到10年之后,还有很多其他问题不能通过深度学习来解决,我们可能需要完全不同的技术。我们在未来10年有机会研究完全不同的领域,这是很难得的。我们关注基础研究这件事,也能够吸引来自学术界的人士。

AI科技大本营:我的最后一个问题是关于日本的机器人。您可能不知道日本漫画对于我们这一代以及下一代产生了多么大的影响。实际上我们看过很多关于机器人和未来智能机器的日本漫画,还看过日本公司生产的机器人。就个人而言,您认为日本漫画中描绘的智能机器人是可以实现的吗? 如果是的话,您认为到什么时候我们能够在现实中看到这样的机器人?

杉山将:我相信在不久的将来这一定是能够实现的。科学家们往往很难做出预测,因为每一天都在发生很大的变化。谁知道呢,也许明天就能实现,也许在2020年以后呢? 技术在不断发展,全球的软件和硬件技术都在发展之中。就像在过去十年中,我们已经取得了很大的进步和技术发展。

相关推荐