AutoX创始人肖健雄：让自动驾驶变的和电脑一样普及

出走学界、仍是商界新人的肖建雄，正用十分之一的成本构建自动驾驶解决方案。

从教授到企业家，肖健雄对新身份适应的很快。

33 岁的肖健雄以企业家身份入选了今年 MIT Tech Review——35 Innovators Under 35，这是由美国科技媒体 MIT Tech Review（麻省理工大学科技评论，创办于 1899 年）自 1998 年创立的一项年度科技人物评选，旨在表彰全球 35 岁以内最杰出的 35 位创新人士。

肖健雄所获得的荣誉归类于榜单中的杰出创业者（Entrepreneurs），相比于同类入选者，例如美国一流生物科技公司 Caribou Biosciences 创始人 Rachel Haurwitz，亦或是市值超过 30 亿美元的柔宇科技创始人刘自鸿，肖健雄还是个商界新人，2016 年 10 月，他正式创办了研究自动驾驶技术的企业 AutoX。

2017 年 2 月，在一场由丹华资本和斯坦福华人创业者协会主办的斯坦佛 AI 活动中，肖健雄介绍了他的自动驾驶公司 AutoX。

在随后的半年时间里，AutoX 获得了加州自动驾驶牌照，其无人车已经能在硅谷的车水马龙间穿梭自如。在今年三月披露的首款测试视频中，AutoX 摒弃了市面上的主流传感设备，仅依靠低成本的摄像头，实现了无人车在不同天气情况下的路面行驶。

这是 MIT Tech Review 看好肖健雄的重要原因，也让 AutoX 成为这项榜单自创立 20 年以来的第一家自动驾驶公司。MIT Tech Review 的科技主编 Will Knight 认识肖健雄已久，他认为：「肖健雄旨在将无人车变的和计算机一样普及」。

在成为企业家之前，肖健雄拥有璀璨的学术生涯―― 2012 年世界顶尖计算机视觉大会 ECCV 最佳学生论文奖获得者；2012 年 Google Research 最佳论文奖获得者；普林斯顿计算机视觉和机器人实验室创始人；两度获得 Google Faculty Awards；美国国家自然基金委员会研究奖……

不过，入选 35 Innovators Under 35 对肖健雄有着不同的意义，「这是我第一次在商业上得到认可。」

拓荒三维深度学习

肖健雄热爱计算机科学，聊到人工智能（AI）时，他整个人都兴奋了起来，「人类能造车、造机械，什么都有，但最缺智能化，AI 是很神奇的。」

同时，他又是一个很直观、喜欢视觉的人。个人喜好引领他在十多年前就读本科期间选择了计算机视觉――一种数学和工程学的结合体。肖健雄在读博士之前就读于香港科技大学，学习三维视觉重建，师从该校计算机科学与工程学的终生教授权龙，他是三维视觉的学术权威。

在港科大分别完成本科和硕士学位后，肖健雄进入麻省理工大学（MIT）。他在 2012 年获得的 ECCV 最佳学生论文奖，是在谷歌实习期间的作品《重建世界上的博物馆》（Reconstruct the world‘s museum )。这是一篇有关室内场景重现的经典论文――用 Google 街景相机，在博物馆内部拍照，继而重现博物馆的内部三维构造。

在 MIT 的 4 年，肖健雄已经开始琢磨如何将深度学习和三维视觉结合在一起。当时，深度学习之父 Geoffrey Hinton 和他的学生 A Krizhevsky 在 NIPS（神经信息处理系统进展大会）递交的那篇经典论文《ImageNet Classification with Deep Convolutional Neural Networks》，让卷积神经网络大放异彩，深度学习也迅速地在计算机视觉领域普及，这对肖健雄的影响很大。

毕业后，肖健雄加入普林斯顿大学视觉研发团队，开始着手研究一个新领域――三维深度学习。深度学习被证明在一维（语音）和二维（图像）上有着显著的效果，但将深度学习模型应用在三维数据（点云、深度图像、网格）的深度特征表示，是在最近几年才开始慢慢流行起来。

近三年，肖健雄发起或参与了几乎所有关于三维深度学习的研究——参与发布目前最大的公共三维数据集（三维数据里的 ImageNet）ModelNet 和 ShapeNet ；创建了研究三维深度学习的基础网络框架 Marvin，为后来者做了铺垫；推出 3D 卷积网络 Deep Sliding Shapes，在 RGD-D 图像中研究三维物体的特征……值得一提的是，Marvin 的所有权如今属于 AutoX。

「这个领域是我们创建的。」提起三维深度学习，肖健雄毫不掩饰内心的骄傲。

由于该领域技术在自动驾驶中有可观的应用前景，原本相对独立的三个领域——计算机视觉、深度学习和机器人找到了应用的结合点。这种趋势在近几年愈发明显，今年，机器人学术圈正在筹办一个全新的顶级大会，取名「机器人学习大会（Conference of Robotics Learning）」，以此推广机器人和机器学习的相关研究。肖健雄受邀成为第一届大会的领域主席（Area Chair）。

不难理解，当肖健雄在 2016 年离开普林斯顿大学后，一条知乎评论写道，「肖教授走了，普林斯顿视觉岂不是又没人扛把子了。」

入局自动驾驶

「我觉得这个（企业家）可能更适合我。」对肖健雄来说，创业和做学术更像是一个数学问题。「做创业，90% 会失败；做学术，90% 会成功。」

初见肖健雄，一如照片上的样子：白衬衫，深蓝色的西装裤，棕色的尖头皮鞋，梳着整齐的飞机头，戴着一副眼镜，文质彬彬。他出生在广东潮州，和马化腾、李嘉诚是老乡。他的家里人，包括爷爷奶奶、父母、姐姐，都是商人。

AutoX创始人肖健雄：让自动驾驶变的和电脑一样普及

Credit by MIT Tech Review

早在 2013 年，肖健雄就有了创业的念头，但没有迈出那一步。在他看来，刚刚从 MIT 毕业，花 4 年时间读完计算机科学的博士学位，在技术层面还达到通透的程度。此外，当时也没有多少人真正相信无人车的前景。

学术圈有完整的体系和硬件支持。对计算机科学家而言，创新点往往在算法上，对商业模式和应用场景，甚至工程计算平台和计算，都基本不加考虑。肖健雄之前在学术界从事过 40、50 个项目，对纯发表学术论文渐渐失去激情。每个学术项目的周期都很短，能取得的进展也很有限，如同经历一个又一个小的循环，成就感自然不如自己开公司。

三年后，情况扭转。肖健雄从普林斯顿大学辞职，离开美国东海岸的新泽西州来到硅谷。知乎有人评价肖健雄创业，是典型的「学而优则商」。但真正踏出那一步，说服自己的内心，需要勇气。肖健雄是一个喜欢冒险的人，「这项创业是我一辈子做到现在最大的一件事情，也是最激动的事情。」

事实上，2016 年也是一个入局的好时间。此前，肖健雄一手创办了普林斯顿大学的计算机视觉和机器人实验室，掌握了自动驾驶的核心视觉技术。

另一方面，自动驾驶市场也日趋成熟，成为如今人工智能在应用领域里最炙手可热的一块蛋糕，传统车厂和互联网新贵都在全面押注自动驾驶。就在上周，三星也获得了加州道路上测试自动驾驶汽车的许可，正式进入这片群雄逐鹿的战场。

自动驾驶分 5 个等级区分，这是由 SAE International（美国国际汽车工程师协会）制定的行业标准（美国交通部下属的国家高速路安全管理局也制定了一套划分，从 2016 年 9 月统一使用 SAE International 的分类标准），这 5 个等级从最初级的 L1 辅助驾驶出发，到 L5 已经是完全智能化驾驶的水平。

目前，主流的自动驾驶解决方案将目标钉在 L3（高度自动驾驶，由人类负责激烈的驾驶情况）和 L4（超高度自动驾驶，由系统负责激烈的驾驶情况）。在 2020―2023 年间，自动驾驶车辆能够在特定的路段，比如城市街道、高速公路上行驶。至于 L5 什么时候来临，有业内人士预计是 2030 年，持悲观态度的人甚至认为 L5 可能永远不会到来。

「实现完全无人驾驶没有这么快，有些初创公司完全押宝在完全无人驾驶，我觉得这个商业模式非常危险，我不清楚接下来五年他们怎么生存。」肖健雄说，但他仍然希望尽快普及无人车，让自动和辅助驾驶技术在某些领域尽快造福人类，而不用等到完全无人驾驶乘用车的到来。AutoX 宣传口号也是 Democratizing Autonomy（普及无人车），而他准备从摄像头入手。

AutoX创始人肖健雄：让自动驾驶变的和电脑一样普及

挖掘摄像头的潜力

作为重要的自动驾驶传感器，摄像头主要是用于目标识别和对象跟踪任务，如车道检测、交通信号灯检测、行人检测等。

完全基于摄像头的自动驾驶解决方案在市面上并不多见。Mobileye 算是自成一派，这家创立于 1999 年的公司致力于研究基于视觉的辅助驾驶科技，目前主要面向 L1/L2 等辅助驾驶；特斯拉也曾是 Mobileye 的用户，但因为一场事故，两家分道扬镳，现在正独立研发基于摄像头、前向雷达、超声波雷达和 GPS 数据的全自动驾驶方案。

虽然市面上真正在销售的几乎全部辅助驾驶产品都是基于摄像头，市场上常常有质疑摄像头安全的声音。相比之下，一些汽车厂商们更青睐于能够主动探测的激光雷达，后者不会受到视线的限制，通过反射光波测量反射时间来确定和物体之间距离，精度高。

肖健雄并不排斥激光雷达，但他始终认为，在目前这个阶段，摄像头应该扮演传感器中的主角。从今年三月公布的首支无人车测试视频来看，他们使用改造自林肯 MKZ 的原型车，装载 7 个单目摄像头，成功地在晴天、小雨、晚间、晚间多云这四种天气情况下行驶无人车。在肖健雄看来，「摄像头的潜力被大大低估了，理论上，摄像头可以做到比人眼还厉害。」

AutoX 种子轮投资方丹华资本的董事总经理万卉，在年初体验了最早的 Demo。她告诉记者，在创立 2 个多月的时间里，AutoX 成功让仅有两个低端摄像头的无人车在城市街道行驶，「这种强大执行能力给人留下深刻印象。」

万卉看好摄像头为主、传感器融合为辅的自动驾驶解决方案，「基于高端激光雷达与三维高清地图的解决方案始于 13 年前的 DARPA（美国国防部高级研究计划局）挑战赛，该架构有其历史包袱与局限性。人类不会发射激光，也不需要提前记录下道路上每一个细节，我们可能会迷路，但仍能安全驾驶。」

为了提高摄像头的安全性，AutoX 下了很大功夫。硬件上，装在 AutoX 无人车上的 7 个单目摄像头，是从 AutoX 团队购买的 300 多种摄像头中所甄选出来的，但依然没有完全符合要求。肖列举了一长串摄像头标准，包括符合车规硬件标准、自动化、高动态范围成像、夜视以及算法需求等。

但这不会造成太大的麻烦，伴随手机市场过去 10 年的发展，摄像头工艺也跟着突飞猛进，厂商有能力制造出满足需求的摄像头。「我们知道需要什么，我们可以让厂商提供定制。不是他们做不出来，是从来没有人和他们提过。」肖健雄说。

软件上，基于摄像头的解决方案对算法的鲁棒性要求很高。这是 AutoX 的优势，除了肖健雄外，公司 20 多人都来自美国顶级的高等院校或谷歌、微软、Facebook。

除了技术层面，成本也是一个重要的考量因素。到 2019 年，AutoX 将提供基于摄像头的 L2.5/L3 自动驾驶软件解决方案。作为创业者，肖需要盘算自动驾驶在商业上的可行性。动辄上万美元的激光雷达，直逼一辆乘用车的市场价，相比之下，几十美元的摄像头就变得无足轻重了。

「我们现在主要是以摄像头为主，然后把摄像头的软件模块提供给感兴趣的汽车厂商。」肖健雄没有披露更具体的应用场景，但提到了两种适合 AutoX 的切实可行的落地方式：第一种是特殊场景，比如物流运货、机场巴士等在限定路线和区域内的完全无人驾驶；第二种是半自动化驾驶，即在乘用车上实现 L2/L2.5/L3 的水平。

肖健雄从内心觉得，这是一件正在改变社会的事情。正如他人尽皆知的外号 Professor X 所代表的另一个人物——查尔斯教授（Charles Francis Xavier，漫威漫画 X 战警里的重要角色），「不是因为这个角色有什么超能力（才厉害），而是能集结社会中的能人异士去做一件很难但对社会有贡献的事情。」

以下是肖健雄和我们探讨关于无人车技术的内容：

机器之心：AutoX 具体使用的是哪款摄像头？

肖健雄：具体的摄像头我们没有定，我们大概买了 300 种摄像头。单目双目都有用，双目的其实就是两个单目的同步起来。RGB-D 没有看到一个特别好的，因为 RGB-D 用不了就得靠 Lidar。传统的 Kinect 和红外线不能看太远，会受到阳光的影响，白天开车阳光照射，有很大的干扰。所以基本上就没有很多选择，就用单目相机。

机器之心：你认为可以通过摄像头解决一切安全问题吗？

肖健雄：如果说不计成本快速实现无人车，当然什么传感器都上。科学上，你加多一点传感器肯定好过没有，就算它再差，但最起码多一层保险总好过没有，但这是科学上的。实际商业上，不可实现的。因为你加很多传感器，价格非常昂贵，最后没有任何经济价值。无人车比雇几个全职的驾驶员还贵的话，那就没有意义了。

第二个硬件也没有准备好。更多东西，就有更多风险，比如说有了不同的东西，每一个都可能失败，一个失败就不稳定了。做实验的时候，因为工程师在那里检测半天那可能不会有什么问题，但现在如果是真正商用，把车真正交给用户，什么千奇百怪的事情都会发生。如果质量不好，任何一个传感器失效了，那都会出事。

汽车行业这么多年一直在测试稳定性，它们做的东西其实就是刹车油门方向盘，但为了这么简单的机械工艺，它们还进化了上百年才能把将它提升到一个很高的安全系数上。今天的方向盘已经安全多了，今天的像 Abs（防抱死），提升整个系统的安全性能，也是迭代很多年才进化到今天这个地步。软件迭代升级的速度可以很快，但是硬件（传感器）升级的速度是需要一个很多年的过程。系统里如果加入了越多的东西，不完美的可能性就越高。

AutoX创始人肖健雄：让自动驾驶变的和电脑一样普及

AutoX 无人车的测试视频截图。

机器之心：怎么克服一些摄像头中的弊端？比如说过度曝光，比如这种弱光环境，咱们只是在算法上做一些调整吗？

肖健雄：对摄像头也有一定的要求，不全是算法。当然算法要非常好，非常鲁棒，这是必须的，这是我们的技术优势。

摄像头方面，一个就是强曝光的 High Dynamic Range（高动态范围成像），HDR 的要求是非常高；其次就是夜视。其实相机理论上可以做到比人眼还厉害，但是因为现在没有大量这种需求，只有少数人用它，自然就没有生产这个。

机器之心：摄像头到处理器的带宽要求很高吗？

肖健雄：这个带宽要求挺高的。一般现在的技术都已经承受了，比方说 USB 是很糟糕，但 USB 已经非常快。比方说在工业界，大家用 GMSL 来，这个是符合车规级的一个连接。现在很多特别新的电动汽车厂，他们一直在推 automotive ethernet（汽车以太网），我觉得这也是非常好，因为自动化，以前就是用 CAN BUS，这是个非常老的、非常糟糕的 protocol bandwidth（协议带宽）。

机器之心：深度学习在 AutoX 整个决策过程中扮演什么角色？

肖健雄：我觉得深度学习非常重要，我们在各个方面、各个角落都用到深度学习。很多公司整天把深度学习当回事，把它当广告词。但我觉得深度学习有点像 C++，非常底层，不是说它不好，而是说它非常好，好到一定程度被普及，就变成了常识，所以没有必要强调了。

机器之心：AutoX 的解决方案会是端到端的吗？就是把摄像头的数据直接输入到一个模型里，然后来做决策？还是会分权？

肖健雄：我们在 ICCV 年发表过一篇文章，里面有详细比较过，说这个端到端的效果不是很好。你可以想象一下这个数据要求是非常高的，就比如同一条路的车都不一样，那么多辆车，排比组合都不一样的话，每一个都得要训练数据。下次再换条路开，我觉得可变性太大，导致端到端需要用作训练的数据量非常大，可能是整个人类开车一两千年的数据量。

机器之心：AutoX 会用哪种处理器？会用 GPU 来大量处理这些数据？

肖健雄：现在还没有定下来，因为没有一款成熟的处理器可以用。我们和各大厂商都有接触，和英特尔、NVIDIA、MTK 和高通有紧密的关系。我觉得问题就是目前这四个厂商都没有任何一个真正能可靠的、能用的处理器。但是我相信很快就会有很好的处理器面世。

机器之心：您觉得芯片定制化会是自动驾驶的一个方向？

肖健雄：不一定是定制。比如说像卷积神经网络，基本操作就是卷积。不管使用 GPU、 FPGA 还是更定制化的芯片，都是为了实现卷积。如果有芯片 ASIC 或者 FPGA 出来就是卷积，会有更好的效果，用通用芯片我认为是一种资源的浪费。关于卷积在自动驾驶中的作用，一开始大家不清楚是不是卷积，逐渐达成共识后，甚至芯片都可以定制化到卷积。

不一定是定制，比方说像卷积神经网络，基本操作就是卷积。它可以把卷积定制化。现在神经网络只有卷积，其实根本不用 GPU，GPU 是通用编程。不如在 ACIS 出来或者 FPGA 出来就是卷积，我觉得这是一种资源的浪费。所以一开始大家不清楚是不是卷积，那现在基本上大家都同意到只有几种类型的车，那这时候甚至以后的芯片都可以定制化到卷积。

AutoX创始人肖健雄：让自动驾驶变的和电脑一样普及

机器之心：不同汽车之间，数据可以互相通用吗？比如说卡车上的视觉数据也能用在训练一个小汽车上面。

肖健雄：可以，但那不是完全通用。但是 90% 可以。

机器之心：但是，拍摄的角度包括摄像头的位置都会有很大不同。

肖健雄：所以我就说 90% 可以（通用），为什么？你的算法要够鲁棒，设计时还要多加一些变化，万一摄像头稍微动了一下，怎么办？这些数据可以增强它们的鲁棒性、独创性，但之后在某一款车型上你还是需要大量定制，所以我觉得需要通用和定制的结合。这也是我们的策略。我们未来的产品可能会有各种形式，然后有一个 centralized（集中）的 dataset（数据集），训练好之后，为每个厂商的每个产品进行定制，确保用户体验在那个环境里是最优的。既不是 one fits all，也不是说完全不共享。

机器之心：摄像头怎么和 HD Map（高清地图）一起工作？Lidar（激光雷达）和 HD Map 合作的比较多，摄像头有哪些优势或者缺点？

肖健雄：优势很明显，就是能够在几年内快速落地产品化，因为价格便宜，然后硬件制造也容易实现。我觉得称不上缺点，大家没做过，像 Mobileye 做过，其他很多厂商做得都比较少。事实上，我们内部发明了许多基于摄像头的定位技术。没人做只能说，难度比较大。还有就是盲目崇拜 Lidar。其实，Lidar 在定位方面也有局限性，比如说一个最极端的状况，试想在一个很大的操场，Lidar 只能看一百米，因为操场很大，超过一百米的半径，你的车在中心的时候，周围一圈扫起来都是平面，什么都没有，没有树也没有房子，这时候理论上就是不可能用 Lidar 做到精确定位。很多人没意识到这个极端状况，国内很多地方是大路十条道，还有交叉路，很像广场，除了地面什么形状都没看到，很难定位。我觉得美国这些居民小区、旁边有楼的还可以用 Lidar 定位。

另外，高清地图每两个月扫一下，但像山间、林间小路里，树会长大、会落叶，比如说在 MIT，东部一到秋天叶子两星期内全部落完了，然后高清地图上次扫的是有叶子，这种情况下，如何对齐就不是很清楚。我觉得高清三维地图是个很好的设想，怎么落地还有很多现实挑战。比如说在波士顿，下雪风吹，每个小时雪都是不一样的，怎么定位？我觉得用 Lidar 很难定位，长得太不像了，Lidar 是靠形状，形状都不一样就没办法定位，分辨率非常有限。大家觉得用 Lidar 就一定好，我觉得不一定。如果 Lidar 降价或者真正量产，我们会马上使用 Lidar，我以前发表过很多文章做 Lidar，只是就算用 Lidar 也需要现实一些，看清楚 Lidar 的局限，就算用 Lidar，软件也要做到非常好。

机器之心：传感器是怎么样的配置？AutoX 是以摄像头优先的解决方案，要加上一些其他的传感器吗？

肖健雄：我们现在主要是以摄像头为主软件模块，但是我们不生产摄像头，比如说各大汽车厂感兴趣，我们可以把摄像头软件模块提供给他们。像特斯拉、 Mobileye，现在真正落地的产品都是靠摄像头，奥迪 A8 也是基本靠摄像头，前面的四线 Lidar 基本上是最后一层防线扫障碍物。

AutoX创始人肖健雄：让自动驾驶变的和电脑一样普及

相关推荐