北大AI公开课 2019 | 科大讯飞刘聪：人工智能的“顶天立地”之路

出处 | AI前线

与 AlphaGo 大胜各路围棋高手时的盛况相比，如今的人工智能正在步入冷静期，越来越多人开始关注人工智能的落地场景是否刚需，以及它实际能够给行业带来多少价值。当前人工智能技术到底达到什么样的水平了？它在不同行业的落地情况又如何？未来 AI 会给各行各业带来什么变化？

北大AI公开课 2019 | 科大讯飞刘聪：人工智能的“顶天立地”之路

课程导师：雷鸣，天使投资人，百度创始七剑客之一，酷我音乐创始人，北大信科人工智能创新中心主任，2000 年获得北京大学计算机硕士学位，2005 年获得斯坦福商学院 MBA 学位。

北大AI公开课 2019 | 科大讯飞刘聪：人工智能的“顶天立地”之路

特邀讲者：刘聪，科大讯飞 AI 研究院常务副院长。长期从事语音识别和人工智能等相关领域的研究。2010 年起任科大讯飞研究院研究主管，在 2010 年 10 月科大讯飞推出“讯飞语音云”前后，全面负责讯飞语音云中语音识别核心效果的优化，并持续将深度神经网络等国际最新研究引入讯飞语音云系统中。2014 年底开始，全面负责科大讯飞图文识别、医学影像、视频分析等方向的研究，带领团队在多项计算机视觉国际评测中获得佳绩，相关研究成果在多个内部产品中成功应用。获得 2018 年度 MIT TR35 China“先锋者”和中国计算机学会（CCF）杰出工程师称号。

以下 AI 前线独家整理的刘聪老师课程内容（略有删减）。

今天分享的题目是《人工智能的“顶天立地”之路》，其中“顶天”指的是核心技术要做到领先位置，“立地”指的是技术不只是发论文或纯学术研究，而是要真正能够赋能各个场景或改变不同的行业并发挥价值，这两点也是科大讯飞在成立 20 年间一直强调的。

如今回顾过去几十年人工智能的发展历程，“顶天立地”这个词同样适用。人工智能的整个发展历程其实就是不断追求技术高度、挑战技术极限，同时也在持续追求这些技术到底能不能发挥价值。因此今天我想从讯飞过去 20 年积累的经验和趟过的坑切入，就讯飞在“顶天立地”的追求和方法论的积累跟大家做一些分享。

整个演讲会从“五个 W”问题来展开，不管是学术界还是产业界，都需要把这 5 个问题搞清楚。首先是 What，人工智能到底是什么以及它的整个发展历程；第二个是 Where，到底现在人工智能的技术在各个场景上达到了一个什么样的水平；第三个是 How，人工智能如何实现的，以及实现以后获得了哪些成功；第四个是 When，到底人工智能什么时候才能走进我们的生活并产生落地的价值；最后会聊聊，在人工智能的浪潮当中，我们每个人、每个公司所处的位置，未来我们找工作，甚至我们的孩子未来报什么专业有没有一些导向。

What：人工智能是什么

关于人工智能定义非常多，我比较认可的是 2018 年一份人工智能白皮书上提到的定义：人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

北大AI公开课 2019 | 科大讯飞刘聪：人工智能的“顶天立地”之路

上面这张图可以结合 Gartner 提出的技术成熟度曲线来看。当一个新技术刚刚提出来的时候，往往会引起大家的高度关注，尤其是媒体，于是技术曲线就会往上冲得非常高，但正常来讲，技术的发展有自己的规律，达到一定高度后可能会发现这项技术满足不了用户的需求。于是随着大家认知跌落之后它又会回到谷底，有的技术可能回到谷底之后就能再也起不来了，有的时候随着用户预期跟技术能力慢慢互相适应之后，这项技术又会渐渐从底部走出来。

人工智能从 1956 年在达特茅斯会议上提出到现在，已经经历了三次浪潮，每一次其实都跟 Gartner 曲线有很大的关联。我们现在所处的阶段，看起来好像又快到一个新的二十年了，但从目前来看，这次比以前的状态好一些。围绕刚才说的这个曲线，我们也发现了一些很有意思的地方：其实每一次的曲线中，期望都是大众推高的。当某一个人工智能技术成熟之后，大家可能就不当它看作人工智能了。比如车牌识别、人脸识别、拼音输入、手写识别等等，以前刚刚出来的时候，大家会觉得非常新鲜，但到现在如果没有这个功能或者出了一个错误，大家就会觉得很奇怪。其实从某种程度上来说，也是大众的这样一种认知在不断推动着人工智能往前进步。

Where：人工智能现状如何

根据技术实现的难度，我们一般会把人工智能划分成几个阶段：第一个阶段，能存会算的运算智能；第二个阶段，是能听会说、能看会认的感知智能和能抓会握、能走会跑的运动智能；第三个阶段，是能理解会思考的认知智能。

运算智能

首先看一下运算智能，虽然 AlphaGo 已经解决了围棋问题，看上去非常强大，但本质上围棋问题仍然是一个空间有限的任务。只要是有限任务，从理论上来讲，都是可以堆运算力去解决的。所以人工智能下围棋这个问题本来就是能解决的，而 AlphaGo 之所以轰动，是因为它通过一些巧妙的方法把这个问题解决的时间提前了 20 年，让我们能够在现有的运算能力下干这件事。

机器的运算智能虽然也有一些学习规则，但是跟人的思维方式是不一样的，在这种场景之下，机器是有一些天生优势的。除了象棋围棋，还有像最强大脑、记数字等类似的问题上，当前的机器水平已经远远超过人类了，这就是运算智能当前的状态。机器学习的速度，跟人类学习的速度至少是一个数量级的差别。人工智能的魅力就在于它的持续向前进化能力和无成本复制能力，这是人类自身无法比拟的。

感知智能和运动智能

感知智能指的就是机器能听会说、能看会认的能力。从感知的角度来说，机器进步很快，与人类越来越接近。

北大AI公开课 2019 | 科大讯飞刘聪：人工智能的“顶天立地”之路

以上图的语音识别为例，纵轴是语音识别的错误率，越低越好，横轴是时间。在评估语音识别效果的时候需要先限定场景，才有意义。在八九十年代的时候，朗读形式的语音识别已经做得很好了，准确率能够达到 95% 左右。但是在深度学习出现之前，如红色折线标记的对话式语音识别错误率一直在 20% 左右，很难做好。有了深度学习之后，识别错误率开始显著下降，在 2017 年左右已经可以做到 5% 左右，我们可以把这看作和人的水平是相当的。在图像识别领域也是类似的，像 ImageNet 这种大型图像识别任务每年错误率的下降速度也非常厉害。每一年的算法提升，可能相当于过去 10 年累计在一起的算法的提升，这也反映了感知智能的水平确实在快速提升。

再看运动智能，人类通过视觉直接判断位置并控制肌肉完成动作，而机器则是通过摄像头判断位置并计算出位置和力度。目前机器在运动智能这块跟人的水平还是有差距的，但机器人也有它自己的一些特点，比如它可能会利用超声波或红外等能力来增强自己在这方面的能力。

认知智能

语言是人类智慧的重要载体和基础，没有语言人类不能组成大量团队，没有语言人类没办法维持社会结构，没有语言就不能产生虚构的概念。语言的广泛使用，是产生“认知革命”的起因。从人工智能研究的层面来讲，自然语言理解难度也非常大，因此被称为“人工智能皇冠上的明珠”。但实际上，人类智慧是基于多模态的，不是纯粹的语言符号就能闭环自洽的，语言知识人类智慧的载体和表层。虽然我们现在也有基于多模态的研究，但还有很长的路要走。

北大AI公开课 2019 | 科大讯飞刘聪：人工智能的“顶天立地”之路

认知智能是人工智能目前最大的挑战，特别在知识表达、逻辑推理等方面。

How：人工智能如何实现

人工智能技术流派可以分为强人工智能和弱人工智能两类。其中强人工智能指的就是能够真正像人类一样思考，不需要基于很多样本做训练，这目前还属于前瞻和基础研究状态，主要以脑科学研究为主。而弱人工智能则是让机器表现得“像”有智能，但其中实现的过程和人脑真正的机理差别是非常大的，更多还是在大数据 + 深度学习的支撑下带来突破，这也是当前人工智能的主流技术路线。

人工智能有三种实现路径，第一个是深度学习。我们曾经把算法、算力、大数据叫做人工智能的三大法宝。只要有足够多的、有监督的、海量训练数据样本，深度神经网络就可以达到可媲美人类的智能水平。以我们目前使用最多的深度神经网络 DNN 为例，它可能会使用 10^11 个训练样本，需要 10^7 个参数，而这些参数可能在 GPU 阵列的支持下经过 10^9 次迭代更新，最终使整个神经网络达到人类可比的智能水平。

第二个实现路径是全脑模拟，包括我们知道的美国前总统奥巴马提出的“大脑活动图谱计划”、欧盟的“人类大脑项目”、中国正在酝酿启动的“中国脑计划”等走的就是这条路线。其原理就是利用超算模拟大脑的活动方式，将大脑的活动保存下来，就像“电子永生”一样。当然这对存储或者运算的要求可能比我们现在最强的计算机，还要高出几个数量级。现在我们还做不到这一点，而且即使未来能做到这一点，其实它也不具备推广能力，因为背后要求的运算支撑实在是太多了。这个实现路径目前属于非常前瞻的局部研究。

第三个实现路径是智能动力学，就像钱学森的导师冯卡门专攻空气动力学最终造出飞机一样，是否能将人类的学习机制等提炼出来，跟我们现有的模型结合。这条路现在我们也在努力，但其实也还有很长的路要走。

现在人工智能的研究还是以第一种实现路径为主流，整体来讲，感知智能中的语音和图像进步比较快，因为拥有更多数据；而认知智能，比如自然语言理解，在机器翻译这块做得还不错，但其他的问题如交互、行业专家知识等，并没有本质突破。

When：人工智能何时落地

最近几年，大家对人工智能的期望变化越来越快。2016 年的时候更多在提的是三大法宝：算法、算力、大数据；到 2017 年的时候说，得找落地场景，别光做 PPT；到 2018 年，还得找价值，别光找场景，如果这个场景不是刚需也没有用；到现在 2019 年，关键词已经变成了价值兑现，得赚钱。这也可以看出大家对人工智能的期望，以及人工智能技术的迭代速度都在不断提高。

北大AI公开课 2019 | 科大讯飞刘聪：人工智能的“顶天立地”之路

但实际上，在学校做科研和真正在公司里面做人工智能的产品不同，后者的链条非常长。

基于讯飞在实际产品落地过程中的分析，我们认为人工智能在以下几种场景相对人类更有优势：

北大AI公开课 2019 | 科大讯飞刘聪：人工智能的“顶天立地”之路

基于人工智能现有的优势，企业在人工智能落地方向上可以做出更好的选择。

北大AI公开课 2019 | 科大讯飞刘聪：人工智能的“顶天立地”之路

对于人工智能的落地，基于技术成熟度评估的台阶设计至关重要。

北大AI公开课 2019 | 科大讯飞刘聪：人工智能的“顶天立地”之路

以讯飞为例。讯飞成立于 1999 年，一开始只做语音合成；2002 年的时候，我们想做语音识别，但发现识别很难，所以我们退而求其次，做了语音评测（比如普通话识别，由机器代替老师自动打分），跟识别框架类似，但难度会降低；2005 年，我们开始做语音识别，刚开始我们想做难度更大的语音转写，但是当时技术还不够成熟，因此我们先做的是语音输入法，因为输入法是需要人配合的，输入的时候需要用户想一下再输入，而普通的说话是随机的而且比较复杂；再到 2011 年开始做语音交互，到 2014 年，在语音交互有了一些基础之后，我们开始在教育、政法、医疗等很多行业进行赋能。其中很多研究都是跟高校共同合作孵化出来的。

除了算法以外，数据和运算能力也是设计台阶的重要依据。

目前人工智能在落地主要分为两大类，第一，人工智能会通过机器与人的自然交互改变人类生活，另一方面，智能学习会颠覆很多需要专业人士的行业，如医疗、教育等领域。

计算机每发展十年，与人的交互会发生变化。键盘和字符形成第一代人机交互，鼠标和图形显示则构成第二代人机交互，而第三代人机交互则是以语音交互为主、触摸交互为辅的方式。

在行业方面，各行各业最稀缺的是专家，而人工智能要学习专家能力，并用机器学习替代专家。因此人工智能应用到各行各业可以改变各个行业的思维方式。目前讯飞在教育、医疗、政法等多个行业都有人工智能的落地应用。

北大AI公开课 2019 | 科大讯飞刘聪：人工智能的“顶天立地”之路

Who：谁将弄潮人工智能

未来的商业模式到底会是怎么样的，这决定了我们，不管是个人还是企业，在这个过程当中所处的位置。因此我们需要从商业模式的层面对未来做一些预测，只有提前预测这，才能知道未来可能会发生哪些变化。

北大AI公开课 2019 | 科大讯飞刘聪：人工智能的“顶天立地”之路

交互方式，将会从图形界面到触摸界面再到基于视觉呈现的交互；单纯的软硬件模式将会转变为软硬一体的“云 + 端”模式；移动互联网时代，更多出现的是巨头，比如 BAT、TMD 和所谓的超级 APP，但在未来，我们认为会变得更加多样化，包括传统行业，像银行、运营商、地产商、家电厂商，也都会一起参与进来；面向最终用户的产品，会从“大 C”产品，比如手机、汽车这种形态比较固定的大件产品，转变为一些更能体现出用户个性化需求的“小 C”产品，比如智能硬件、机器人等等；另外中国特色也会推动一些应用场景在中国的快速发展，比如视频监控。

北大AI公开课 2019 | 科大讯飞刘聪：人工智能的“顶天立地”之路

互联网时代，企业通过网站提供服务，用搜索引擎来触达用户；而移动互联网时代最大的变化是智能手机的流行，AIOT 时代，我们会看到更多样化的硬件。未来冰箱、电视都可能会成为接口，每一个服务提供商都要建立自己的人工智能系统，通过这样的系统去更好地触达和服务用户。而分发渠道可能是结合 UI 和前端的硬件提供的一整套 AI 系统，包括讯飞、DuerOS 都在做这样的事情。通过软硬一体化的整体解决方案，既可以为开发者提供一站式的解决方案和技能平台，又能为消费者提供体验一致的场景化需求。

未来人工智能将无处不在，每个领域、每个行业，乃至每个企业都将有自己的人工智能平台，专注解决各自不同的人工智能问题，开发不同的产品和服务。彼此正交的不同公司需要建立紧密的合作，在新的生态下知识、经验、数据、利益的分享将变得更加重要，通过混合的方式建立新生态下的共赢合作是成功的关键。

小结

首先，我觉得知易行难。虽然我今天跟大家分享了讯飞的一些经验，或者说我们以前趟过的坑，但是可能在座的各位以后进入这个行业，不管是学术界、产业界或者创业，有些坑还是得自己趟，避不开。只有你自己去趟了，可能才会有更深的体会。但从另外一个角度讲，其实我们都很幸运能够出在现在这样一个时代。现在我们所能看到的人工智能未来的发展，其中积极性的因素和发展的空间，是比我们看到的风险或者泡沫更大的。所以，我相信大家处在这样一个行业，只要能找准自己的定位，想好自己想做的事情，未来机会非常大。我也非常期待，在这个人工智能还在持续发展的时代，我们可以在中国跟大家一起去建设更加美好的世界，谢谢大家。

Q&A

Q1：这个问题来自一名大一学生，他想了解现在 AI 人才的情况，如果现在开始学 AI 是不是太晚了？

刘聪：如果你是想对 AI 有更多的了解，这是一件好事。本质上更应该找到它背后最基础的东西，不管是 AI 还是机器人，还是其他的东西。举个例子，如果未来要做 AI 或者 AI 以后换个名字，它背后最基础的能力在哪里？可能是数学，可能是计算机，可能是数据分析的能力，或者我们刚才提到的统计学相关的知识。如果从选择方向来说，并不是说计算机系就不能学 AI，逻辑并不是这样的，包括讯飞招的很多人，其实并没有 AI 的背景，但他们可能有很好的编程的功底。所以这个问题的答案是说，只要跟这个相关的，或者这项能力本身，你认为在未来它是不会被淘汰的，就可以去学，其他的都不是最关键的，也不存在学的晚的问题。

Q2：现在这个 AI 的研发团队一般都是由博士生组成，这个硕士生他们感觉到这个发展的空间，或者地位比较尴尬，然后他们想问问您，硕士生应该如何规划自己的职业生涯？

刘聪：不同的公司对这个事情的看法可能不一样。至少从讯飞来讲，博士生的比例并没有那么高。其实还是本质的问题，到底读一个博士和读一个硕士，区别是什么？我们招生一般会有两种情况，如果是博士，换专业可能性就会比较小，因为博士已经在这个领域做的比较深了，反而是硕士，讯飞研究院招了不少原来专业跟 AI 没有任何关系的硕士生，比如通信、计算机，甚至学数学的都有。从我或者从讯飞的观点来看，对于硕士生，如果你的数学基础、编程能力等这些基础能力足够强，我们不会特别关心你到底有没有 AI 背景或者相关经历，这些都是可以后期培养的，所以我觉得不用太担心。

Q3：能否预测一下能够替代 80% 以上人类工作的人工智能大概会在哪一年出现？现在从事哪方面的研究，能够推动 AI 取代人类？以及这个突破点大概会出现在什么地方？

刘聪：这个问题本质上都是围绕取代人类，一方面担心被人类取代，另一方面心里面又有些小窃喜，我得做个什么东西更快地把人类取代。其实取代人类这件事，需要分开来看。首先，取代人的目的是什么？就像前面提到的，有些重复性劳动是可以用机器取代人类的。比如教师，很多人认为教师一定是不可取代的，但仔细分析就会发现，其实我们并不是要取代教师这个职业，而是要取代教师的某些工作内容。教师其实除了教学，还需要进行一些感情上的关怀，但现在的老师的工作已经完全被改卷子、出题目占满了，哪有时间去做对学生精神上的引导。回到刚才的问题，预测多少年会取代是咨询机构喜欢干的事，我个人觉得更多的还是阶梯式，可能是一个逐步演进的过程。更关键的问题是我们得分析，到底哪些属于重复性劳动，比如速记员、送快递等，这些重复性的工作未来肯定会部分取代。但是刚才说的一些需要人关怀能力的工作，包括教师、医生，这些都是不可能取代的，只是可以将他们解放出来，让他们去做更具有创造力的事，这是第一点。第二点是说有哪些关键技术可以推动 AI 更快地胜任人类的一些工作。主要有两个方面，一方面是小样本学习、无监督学习这类可以更好地扩展到不同领域的技术；另一方面是人机耦合、人机协同这样的技术，随着技术的发展，即使在现有的框架之下，也可以逐步降低整个过程中人占的比例。

本篇文章来自北京大学最受欢迎的 AI 公开课“人工智能前沿与产业趋势”14场公开课系列之一，课程邀请到了商汤科技副总裁沈徽、驭势科技 CEO 吴甘沙、微软亚洲研究院副院长周明等 14 位来自产业界的大咖进行授课，AI 前线作为独家合作媒体全程跟进并对北大这 14 场公开课进行整理，课程精彩内容，欢迎点击了解更多查看

北大AI公开课 2019 | 科大讯飞刘聪：人工智能的“顶天立地”之路

北大AI公开课 2019 | 科大讯飞刘聪：人工智能的“顶天立地”之路

What：人工智能是什么

Where：人工智能现状如何

How：人工智能如何实现

When：人工智能何时落地

Who：谁将弄潮人工智能

小结

Q&amp;A

相关推荐

Q&A