seeyousoonhhh 2018-04-26
大数据文摘作品
记者:龙牧雪
还记得去年春天,Facebook首席AI科学家Yann LeCun在清华一票难求的演讲吗?
刚刚,在国家会议中心举办的2018年GMIC Beijing大会上,他再次现身,做了题为“AI的最新技术趋势”的远程视频演讲。不同于往年几乎巡回演出一样的“雷同”PPT,这一次,他确实给出了非常多的新料,包括2018年Facebook最新将在CVPR发布的研究内容:识别肢体动作的DensePose。
随后,针对人工智能发展的前景、应用和人才问题,他也和来到现场的“机器学习之父”伯克利教授Michael I.Jordan,以及创新工场CEO李开复一同参与了一场精彩的圆桌讨论。
顺便提一句,Yann LeCun现在出场时的Title是“Facebook首席AI科学家杨立昆”,看来去年取的中文名已经开始被全面使用啦。
大会主题:AI(爱)生万物
Yann LeCun从神经网络的历史讲起,从优化、反向传播算法、卷积神经网络开始,讲解了AI在自动驾驶、医学成像等领域的进步。
在演讲中,Yann LeCun特别指出,下一轮革命不会是“有监督”,也不会完全是“强化”。他的原话是:
The revolution will not be supervised (nor purely reinforced)。
也即,有监督学习和强化学习单独来说都不会引领下一波浪潮。技术进步的关键在于自我监督或者无监督学习,而且会结合类似婴儿学到“东西拿不住会掉在地上(也就是引力的存在)”这样的常识性学习。
究其原因,是用于学习下围棋、玩游戏的强化算法们,在现实世界中并不适用。强化学习需要太多尝试、不断犯错误,才能学到它要学的规则。但是如果在无人车上进行同样的试验,这会造成不必要的伤亡。再有一点是,我们无法加速现实世界的时间。阿尔法狗在几小时中下几乎无限多盘棋的训练的方式将无法复制。
以下为Yann LeCun的演讲速记及现场PPT,大数据文摘对其中的精华进行了摘录:
今天我想讲一下关于深度学习的一些情况,深度学习的未来,以及我们所面临的挑战。
今天AI系统中的主要组成部分是有监督学习。不管是影像、声音或者是图像的识别,或者是语言翻译等等,比如说向计算机展示一个车的图像,它就会知道这是一辆车,下次向机器展示同一个图像的话你就会得到你想要的答案。有监督学习对于计算机学习是非常重要的。
机器学习的整个过程,是端到端的学习过程。通过这种方式计算机会更好地了解我们的世界。我们知道神经网络是非常复杂的,运算能力一般的计算机在运行神经网络时会有困难。
越来越多人相信深度学习是可以发挥作用的。2009年、2010年,我们与纽约大学合作进行了一项实验:可以让计算机识别图像、马路上的建筑,以及路上的车和人等等。我们可以利用这样的技术来去识别一些车辆。再过几年之后,我们可以看到有一些公司,它们利用视频和这些技术也可以识别图像。
大家可以看到在神经网络当中使用的几个层,例如有100层或者180层神经网络。因为有了这样一些应用,可以看到错误率、故障率是在不断下降的。有的时候神经网络表现得甚至要比人还要好。它的性能非常好,已经成为了一种标杆。另外它实际上比CPU识别图像要更加复杂一些。它不仅仅能够识别对象,同时也能够进行本地化处理。
我们在Facebook人工智能部门进行了一项叫做Mask-RCNN的研究,它可以对图像进行标记,并展现出了非常好的性能。它不仅仅可以识别出每个人,同时它会为每个人做一个标记,所以可以很容易区分出事物的类别,例如,它可以识别电脑、酒杯、人、桌子等等,而且也可以对数量进行计数。
五年前,我们可能认为需要10-20年时间才能达到今天呈现的效果。Facebook已经开源了Detectron,大家都可以去下载代码,这样的话世界各地都可以更好的熟知这种技术。当然,利用这样的技术不仅仅可以进行识别图像、进行面部识别,也可以识人的行为或是用来翻译。
我们最新的研究成果是DensePose,实时识别身体姿势。相关论文即将发表在今年的CVPR上。效果可以看下图:
这个算法能把人身体的各个部分分解开来:
由此可以输出3D图像:
这是DensePose在COCO数据集上的结果:
另一些结果:(文摘菌备注:可以用来识别广场舞大妈的动作创造一套广场舞?)
对于我们研究团队来说,不仅仅要开发,同时我们也希望所开发的技术能够引导整个社区,解决我们所感兴趣的问题。AI不仅仅会帮助我们解决问题,同时还会帮助我们应对很多人类自己无法解决的挑战。
这是Facebook人工智能实验室FAIR所发布的一些开源项目,比如深度学习网络、深度学习框架等,大家都可以学习。
接下来我们再来看一下可微分编程,可以从另外一个角度学习深度学习。实际上它也是一个固定的架构,它涉及到的编程可以用人工神经网络解释。这个编程共有三个指数,实际上和人工神经网络非常的类似,会根据数据的不同而变化。另外,数据系统的变化也会导致编程的变化。
它相当于一个有记忆力组件的增强神经网络。比如如果建立一个系统能够回答复杂问题的话,比如说关于图像的复杂问题。我们输入了一个问题,这个问题可能有一些不同的代码,它之后被解码,而且之后会用在编程中,这样就可以使得我们的系统能够回答问题。
对于这样的编程,之后它总会成为图片。比如说有多少是方形体,或者有多少颜色,最后告诉你具体的答案是什么。通过这么做我们可以建立起一个端到端的解答的途径。而且也允许你提出更多新的问题。这些图像都是动态的,之后你可以加以操作。当然根据你输入数据的不同它有所变化。基于此,我们可以进行更多医学影像方面的分析。
机器学习能做很多事,但也有很多事做不了。
强化学习擅长玩游戏,但在现实世界中并不适用!机器需要学习很长时间才能去玩游戏,可能要进行100个小时、成千上万次的训练才能够做到。
所以我觉得有些核心的功能方面,我们确实现在还没有触及到。可以看一下DeepMind的算法玩Atari游戏的数据:多数方法需要相当于230小时的游戏时间,表现最好的需要83小时(1800万帧)。
有些学习涉及力学,但是在实际的生活当中不可能实时的来进行这些实验,否则我们的无人车就会翻下山坡去。所以我们只能够进行模拟,但是它也需要我们进行很多的尝试才能够让机器学到。
有两点要注意:你在现实中做的任何事都可能导致死亡、你不可能调快现实世界的时间。
我们来看看婴儿是怎么去学习的。六个月大的婴儿可能不太了解物理规律,可是在满了八个月之后,你就会惊奇他们的能力,因为他们已经知道“自由落体”这回事了。直观的来说就是,东西如果没有支撑,像下图中的小车那样,它们就会掉到地上。
“落地”这个动作就是婴儿对小车的行为作出的预测。人们学习常识,通过不断的“建模-预测”来了解世界。下图里的大猩猩也是这样。饲养员给它展示了一个让杯子里的东西消失的魔术,它表现得非常意外,因为东西消失不是它的预期。
我们需要这样的监督或者学习能够使得机器得到训练,使得他们能够进行规划,进行反映。这就是我们需要建立起的一个系统。
不管下次的变革从哪个点出发,它们都应该是自我监督或者无监督式的学习,而且其中也会出现一些常识性的学习。
学习的三种形式:强化学习、有监督学习、自监督预测学习:
摆在我们面前的是通往所谓真正的AI的两大疑问:
我们怎样才能让机器学习的过程像人类和动物的学习过程那样有效?
我们怎样训练机器去规划和行动?
答案是:使用常识。
我们已经做了一些工作,包括预测简单情景当中有哪些物体有可能会跌落下来、有什么样的可能性、它的大概概率有多少等,这里的结果不仅仅是唯一正确的,可能有多种结果。
我们进行了对抗性的训练,比如说我们可以训练机器了解哪个分项是看起来是更可能的、或者在实际生活中会发生什么样的结果。对于发生性它也会来做出预测,可能哪些时候哪种结果是虚假的,哪种是真实的。通过这么做我们就能够得到不同机器产生的结果,之后得到了很多的影像和图片资料。
最后做一下总结。有监督学习是不能够被替代的,不管是无监督学习还是其他的学习方式都不能够替代它。所以这点已经引起了很多人的兴趣,接下来几年还会持续的发展。我相信这也会使得我们不断进行更多的实验,我们也要进行更多的尝试。
还有一点也非常重要,我们既然要使得机器能够推理,那么深度学习能给我们什么样的推理能力?同时我们也要回顾一下在AI时代的机器,它的推理能力有多高,它的逻辑性有多强。
接下来我相信我们会不断的进行演变,而且也要朝着可差异化的智能学习的方向持续发展,这就需要我们对于对抗性训练进行更多的研究。当然了,还会出现更多的有关深度学习的变革,比如包括有一些多渠道的发展或者是复杂的架构,而且在这个领域会不断地出现更多的理论。
接下来技术监督的趋势很显然会不断弱化,甚至监督会消失,这就会出现一些新的理论的产生,比如新的语言、新的并行的文本,我相信之后应该有多维度的可能性。可能会出现一些新的框架,包括一些动态的影像。而且我们诠释的能力也会不断地提升。我们也会不断地开源。
当然了,现在我们的工作量很大,但是移动工具和其他工具也变得越来越流行了,Facebook的用户每天能够制造大概20亿个不同的影像,所以之后大家可能会出于不同的目的去参与,我们也希望能够充分发挥这方面的力量,它可能是一种很强的驱动力。另外,这也使得我们要不断的强化硬件,以便用户的需求能够得到专业化的处理。感谢各位的倾听,谢谢。
圆桌讨论
演讲之后,Yann LeCun通过视频,与现场另外两位AI领域的研究者加州伯克利大学教授Michael Jordan以及创新工场董事长兼CEO李开复进行了圆桌讨论,就人工智能的研究现状、产业发展、在中国的机遇,以及人才发展的相关问题进行了交流。
主持人:在你看来在当前人工智能的技术,现状是怎么样的呢。而我们中国处在什么样的位置和机遇呢?
李开复:刚才的演讲是在学术的角度上描述的,我们在过去的五年左右看到了深度学习和相关的技术对各领域的渗透。尤其是计算机视觉。从应用的角度来看,我会把人工智能的应用的发展归纳成为四波浪潮,这四波浪潮应用的方式不一样。
第一波浪潮就是互联网的AI浪潮,也就是说当你每次在淘宝点击的时候,每次在朋友圈点赞的时候,这些数据都被收集起来,成为巨头互联网公司能够更深度地的了解用户的依据,然后为用户提供更好的服务、更贴切的服务,这是互联网AI。
由于互联网的数据量非常庞大,我们每天都像小白老鼠一样帮助这些互联网巨头。所以今天的AI巨头和互联网巨头之间是画等号的。所以美国的Google、Facebook、亚马逊引领第一波浪潮。
第二波浪潮以大量有价值的信息为核心。比如说一个银行用户的数据,可以降低信用卡的欺诈率或者提高贷款的还款率。当然在各种其他的应用,比如说供应链、医疗、学校,其实任何有数据的领域都可以把它商业化,现在这波商业化AI的浪潮正在发生,大部分AI公司都是做商业化AI的工作。
第三波浪潮以基于视觉、听觉或者其他传感器收集的数据为主,这些数据是过去没有的。然后把这些数据变成一个新的应用,甚至是一个新的用户体验。比如说我们看到各种智能音响智能语音交互。例如在创新工场的前台我们放着Face++,我们是无前台自动运营的。当然我们可以把这样一个聪明的计算机视觉加传感器用在各个不同的领域。比如说在无人商店、工厂等等。所以第三波浪潮已经开始来临,我们会看到更多的传感器、更多的芯片,更多的摄象头布置在周围的各个地方。
第四波浪潮我们叫做自主化、自动化的AI,这也就是我们科幻片看到的无人驾驶,聪明的机器人等等。那么这个浪潮会彻底颠覆我们生活习惯。然后我们的工厂会慢慢变成熄灯工厂、无人工厂,我们的商店慢慢会变成无人商店,所以第四波浪潮是巨大的。第四波浪潮已经有一些初级的应用出来了,比如说无人驾驶,这四波浪潮会来得非常迅猛。
这四波浪潮也给中国带来更多的机会,尤其在互联网上,我们已经占了世界的半壁江山。在视觉方面和传感器方面的应用,我们也发展的非常快。因为我们有海量的数据。在那些比较有深度的科技,像无人驾驶方面还是美国领先的。但是中国有数据的优势和强的政策推动,所以以后应该是中美两国并驾齐驱的格局。
主持人:下一个问题要请教的是Michael Jordan,在最新的博文当中你提到了很多新的东西,你提到了以人为中心的工程科学等等方面的主题,你觉得人工智能的技术将来是什么样发展的演化过程呢?
Michael Jordan:我是一个学术界的人士,我对整个产业发展也是有很多的关注,对我们来说,我们的原则就是要搭建一个体系,目前我们的原则并不是很多。我在博客里用了化学工程这个比喻。在四十年代的时候,我们当时就有这样一个学科。当时建立了很多的准则、原则,使得我们能够让很多的化工厂,能够以非常合理的成本来进行演化和发展。
目前,这样一些原则并没有完全的建立,所以体系还不能全面的建立起来。我想人工智能还不能太夸大。现在我们奢望建立的是智能的自动化系统。其实无人驾驶这些并不是我们最终的目标,包括银行或物流也并不是以无人化为目标,这些领域能够连接协作起来才是我们追求的
所以在很多方面,其实智能并没有完全建立起来。现在我们在很多地方可以实现一些功能。但是语意或者其他背后的背景和引申的含义等等,这种智慧和智能还不存在。
因此我们需要每一个体系,每一个系统都达成这种智能。目前并没有这样一个智能的网络,所以我们要实现整个智能,需要整个体系的搭建,而不是单个个体的智能。其实在无人驾驶或者无人商店这些领域,需要它自己自主做出决策。并且一些决定可能还是有先后顺序和优先级别的。有的做决定是同时做出多个决定,在真实世界当中可能我们要同时做出几百个、上千个,在经济、金融、商业方面的各种决策。
因此,我们可以想象一下,有这样一个提建议的体系,看起来是非常智能,推荐你看这本书、看这部电影,然后在全世界进行部署,就像今天的阿里巴巴、亚马逊做的事情。很多时候亚马逊向人们推荐一本书的时候,人们感觉到真的非常好。所以这些AI的技术正在不断的部署。推荐一部电影也没有问题。
但如果说在交通上,人们从机场到市区,推荐哪条路是不堵的。或者说大家都想去投资股票赚钱,向人们推荐同一个股票。很多时候在建立这个体系的时候,如果向人们推荐的都是同一个路线或者股票,可能这个体系就会出现问题。我们必须要负起责任来。我们在做这样一个体系搭建的时候,我们考虑的并不是单个的个体智能,而是整个体系和网络。包括数据、决策,包括还可能出现的错误都要考虑进去。
因此在这个研究当中,一些原则性的东西正在不断的涌现。但是还在过程当中,并没有成熟,有很多概念还需要去完善。我想现有的问题是,我们似乎认为人工智能无处不在,但实际上整个体系还需要时间来建立。
我们现在目标就是使得无人驾驶汽车像人一样在驾驶,但是这个目标很奇怪,因为人的驾驶技术很糟糕。我们需要建立一个自动化的体系。这是很不容易的。人们可以用人工智能这样一个词来表述,这没有问题,但是千万不要夸大。
主持人:请问Yann LeCun,你讲到过让机器来学常识,这样它能够预测一些问题和可能的答案,这方面你可以再进一步的阐述一下吗?它和监督式学习、无监督式学习和增强式学习的关联度在哪里呢?
Yann LeCun:在这样几个表述之下,其实我在整个人工智能的领域,在这方面有很多的想法和交流。当然从学术性的到实际的应用,也有很多东西。要让它们相互之间搭建起这种体系,的确是很重要的工作。
比如说在Facebook公司,有这样的一些应用,我们希望机器有真正的智能,搭建起这样一个体系架构。我们希望人工智能可以很好的实时的做相关的事情,很多技术现在还没有到位。比如说包括人脸的识别,很多事情进行了几十年的工作,有些目标还没有达成。因为机器要获取大量的知识,它才能够真正的去实现像人类那样的智能和智慧,从而做出很多的预测和判断。
我认同Micheal的说法,我们需要有很多基本的原则到位才能建立一个体系,这样才能真正达到人类的智能水平。
因此,在我的演讲当中也强调了监督式和无监督式的学习。从中可以看到,机器需要有预测能力。它需要从不同感官的输入来进行自我的判断和预测,从全世界获取相应的数据,来揣摩如何模拟出近似于人类的思想。
监督式的学习,提供给机器的数据量是非常少的,数据很少,在训练机器的时候就比较局限。因此它所获取这样一些反馈、信息是不足够的。在这个过程当中,人类与机器的区别是很明显的,这点也可以帮助我们向前进一步地推进。
主持人:刚才我们问了这么多技术的问题,下面要问一下关于人工智能产业相关的问题。请问一下Michael Jordan教授,你曾经讲过机器学习技术对整个产业发展和技术价值的生成有一些相关的作用,你能举例说明一下吗?
Michael Jordan:刚刚会场上的自动翻译把Red Herring in AI(一个比喻)听成了Red hair in the eye“眼睛里面的红头发”,可能是一些同音字的问题,所以人工智能在语意的理解上会存在一些问题。
其实很多时候,要搭建一个智能的体系,并不需要对人工智能的所有方面都了解。人工智能本身是一个计算机科学,但是需要跟经济产生关联。所以我们需要搭建这样一个体系。
如果在我们的生产者和消费者之间搭建一个体系,这种体系的搭建就生成了经济效益,也关联到我们前面讲到的问题。如果我们向所有的人都推荐同样一个餐厅,那么这个餐厅人满为患,大家都不想去太拥挤的餐厅了,它的价值在哪里呢?同样的,我们的计算机科学怎么样为经济服务?所以最好有一个相应的竞争关系。
我们有一个相应的体系,座位是一座一价的方式来进行相应的竞标。比如说我想吸引这里的人过来,这里的座位是3%的折扣或是其他折扣。因此在这个过程当中,大家都可以去竞价,然后实现相应座位合理的分配。
最后经过这样的方式,我的餐厅也有很好的上座率。我旁边的竞争对手可以看到这个餐厅已经开了,而且里面已经满座了。这个时候竞争对手可能会想,我提供30%的折扣,也许能吸引到相应的客户来我这里就餐。
现在整个所谓的人工智能体系,并没有考虑这么多,做推荐的时候还是有相应的局限。
还可以举一些其他的例子,比如说音乐。现在有各种各样的人都在做音乐的创作,有一些音乐的制作是非常好的。通过目前一些体系,很多人都在听音乐,但是在做音乐的时候,我们可以看到很多人并不能从做音乐当中赚钱,它并没有真正的经济效益。
怎么样去解决这样的问题呢?如何用我们的人工智能技术,实现技术到市场化的转变,使它有商业的价值,能够从中赚钱,可以有相应的数据流?这是我们需要思考的问题。
比如说可能我的音乐在深圳很流行,因为那边的人既喜欢听我的音乐,又喜欢向他们的亲朋好友推荐,这样数据就很有价值。既然深圳人很喜欢听我的歌,我就去深圳开一个音乐会,就会很赚钱。我一边是开车的司机,一边可以赚钱,我可以把唱歌的爱好实现商业价值的转换。
通过这样一些数据组创造出很多商业价值,目前很多问题甚至都没有被深思熟虑过,这个时候可以挖掘它们的商业价值,这就是人工智能应该实现的一些功能。
因此对我来说,更好地实现人工智能的价值,也就是让我们的计算机科学更好地为人类造福。
因此也需要一些商业方面、经济方面的人才共同跟科学家协作,让人工智能创造更多的商业价值,探索无限的可能性。在这个过程当中应当更加雄心勃勃地解决其他的问题。
主持人:刚才Michael Jordan谈了很多如何用AI建立全新的市场和全新的价值。另外一个纬度,在AI里面,AI产业和企业经常将产学研结合的特别好,有很多的AI企业都有自己的AI研究院,甚至有很多AI初创企业都有自己的AI Line,这是在AI领域特别常见的现象。
这个问题我想请教一下Yann LeCun,现在你在领导FaceBook的AI团队,另外你在纽约大学依然有教授的职位,那么公司的研究到底该如何开展呢?
Yann LeCun:四年半以前我们在FaceBook开始相应的研究,之前我在ATMT和贝尔实验室工作过,开展一些研究可以提前进行这方面的铺设。并不是说所有的公司都可以做到这一点,对于人工智能而言,进展会受到很大的限制,有很多问题仍然没有得到解决。
我们必须不断的去进行研究,让机器变的更加智能,可以更好地了解人的思想和思维方式。没有任何一家公司或者个人能够自行解决这样一个问题。
另外,开源研究非常容易与大学进行合作。我认为对于学术界来说是不一样的,学术界的研究并不是说彼此竞争、做的都是自己感兴趣的研究。学术界的研究都是非常互补的,所以学术界与产业的结合是非常完美的。
大家会看到在北美、欧洲、亚洲会出现越来越多的情况,研究科学家他们会在企业或者在学术界都担任职务,这样可以更好的实现学术界和产业之间的交流,我觉得这是现在发生的非常重要的一种变化。
通过产业界开源的研究你可以吸引最好的科学家,你可以邀请一个科学家到你的公司来工作。但是如果你不告诉科学家你做的是什么,实际上就扼杀了科学家的研究。
你必须告诉科学家你要做的是什么、趋势是什么,只有这样他才会愿意到这里来研究。科学家的职业发展,实际上也会影响到整个人工智能研究的发展方向,所以你必须让科学家知道公司正在做的是什么,只有这样科学家才可以更好的参与这样的研究。
另外,像Google、FaceBook这样的公司,他们投入了很大的精力做人工智能的研发,对他们的品牌来说是好的,也可以吸引更多的工程师人才。这方面可以让他们变的更有吸引力,这就是为什么他们投入研究AI方面的原因,通过开源的行业可以吸引到更多的人才参与到这方面的研究。
文摘菌也注意到,Yann LeCun的房间里,墙上贴着几张海报。其中一张写着Through LOVE。他连线的视频名(左下角)还写着NYC - Optimal Brain Damage(之前的一篇论文中一种从MLP中去除权重而不显著降低分类性能并提高网络计算性能的方法)。也许通过Love能减少一点脑损伤呢。