针对深度学习、数据科学等话题对Jeremy Howard专访

阳光非宅男 2017-01-23

【AI100 导读】本文是对明星数据科学家Jeremy Howard的专访内容:对他最新推出的深度学习课程的介绍;他对Kaggle获得成功的看法;他所创立的Enlitic对于医学诊断的改革;以及他对于数据科学家们应如何在公司创造价值的观点。

Jeremy Howard 是数据科学界真正的明星。他天资超群,于澳大利亚求学期间曾多次在考试中取得最高分,但是却认为上学非常无趣。于是他在12岁的时候就开始“自主创业”,售卖盗版电脑游戏。18岁的时候被麦肯锡(McKinsey)录用,当时已是一个自学成才的电脑高手和数据分析奇才。在加入麦肯锡几年后,他创立了一家名为 Optimal Decisions Group 的公司,利用数据分析帮助保险公司增加效益。接着他建立了 Fastmail,在当时是很受欢迎的电子邮件服务供应商。上述两家公司都于2000年成功出售,Jeremy 暂时退休并利用闲暇培养兴趣爱好,例如:学习中文、研究电子放大器等。

为了寻求智力挑战,他在2010年参加了由大数据竞赛平台 Kaggle 举办的比赛,最终出其不意地获得了第一名。之后他以主席及首席科学家的身份加入了Kaggle,并帮助 Kaggle 巩固了其市场主导地位。Jeremy 于2013年12月离开 Kaggle,随后在2014年建立了 Elintic——一家致力于通过深度学习来提高医学诊断以及临床决策水平的公司。

Jeremy 最近又创立了一个技术分享网站叫做 fast.ai,以下是记者采访的原稿。

可参见悉尼晨锋报(2016年5月版)对 Jeremy 和 Enlitic 的深度报道,另参考他在网络上获得将近两百万点击的TED演讲:The Wonderful and terrifying implications of computers that can learn.(https://www.ted.com/talks/jeremy_howard_the_wonderful_and_terrifying_implications_of_computers_that_can_learn)

问题一:能否向大家介绍一下您的最新创业项目 fast.ai 技术分享平台 以及它的未来规划?请问您开放的“Deep Learning for Coders”系列课程与其他深度学习课程区别何在?

针对深度学习、数据科学等话题对Jeremy Howard专访

网络上开设了许多深度学习的课程,但我认为没有一个能满足我们目前最重要的需求。我们想向世人展示如何选择和使用最有效的深度学习方法去解决他们的问题。同时我们希望课程尽可能地通俗易懂,而不是把简单问题复杂化。

之前的教学方式要么就是及其侧重数理分析(例如牛津大学开设的课程),要么就是太关注那些高难度的问题,却没有把重点放在最基本的困难上(例如优达学城提供的课程)。

经过反复研究我们发现,深度学习确实能够得出最高水平的运算结果,但是要获得这样高水平的运算结果,需要对大量的细节进行正确的处理。但是处理这些细节问题的关键点并不能从相关的论文、书籍或者网络教程中找到,需要从从业人员之间直接的交流和讨论中才能获得。此外,我们还发现这些从业者们很少讨论那些相对重要并且比较实用的问题,例如:如何在合理的时间内利用恰当数量的资金训练模型。

通过分析若干深度学习的科研项目及其解决方案我们意识到,目前最需要教授的课程是迁移学习。也就是,利用现有的、在大数据集中训练好的模型为需要的目标模型提供有力的着手点。通过利用迁移学习的方法,可以加速训练的时间(多个量级),从而提高训练效率,产出更准确的模型。这样一来,其所需的数据量也将大大减少。

与现行的主流研究方向不同的是,我们想分享真正实用的东西。所以在我们的 fast.ai 分享平台上,我们保证只向大家分享那些能解决实际问题的最先进的方法(而不仅仅是理论梳理)。据众多参与者反映,通过学习fast.ai提供的深度学习慕课(deep learning MOOC),其模型的准确性和效率获得了极大的提升。因此,我们的平台还是有作用的!

问题二: 在创立 fast.ai 之前,2014年您还创立了一家名为 Enlitic 的公司,目的是利用深度学习帮助医生(特别是放射科的医生)更快更准确地进行医疗诊断。那么能否让我们了解一下,Enlitic 都取得了哪些方面的进步呢?与接受过专业训练的放射科医生相比,Enlitic 的效果如何呢?

针对深度学习、数据科学等话题对Jeremy Howard专访

最近的情况我不是很清楚,因为我已经有好长一段时间都不在Enlitic了。但是通过之前在Enlitic的研究,我发现深度学习方法在医疗领域的意义极其重大。医学领域本就是一个十分庞大的系统,包含众多领域,每个领域又涉及众多子领域,遍地都能看到深度学习的发展机遇。更重要的是,这些潜在的机遇能够挽救生命、大大降低医疗成本——尤其是在发展中国家及地区,最为需要这样的技术。

问题三:在您看来,在医疗保健领域,Enlitic 和其他类似自动化医学诊断技术发展的障碍有哪些?

最大的障碍之一就是缺乏完整的数据库——即病人在很长一段时间内的各种医学测试、医学干预以及医疗结果等的记录。只有具备了这样完整的数据库,我们才可以建立深度学习模型,基于实际医疗效果提供医学诊断以及治疗建议,而不仅仅是初级的诊断猜测。

另一个障碍就是缺乏从事研究这一领域的数据科学家。让我感到惊讶的是,太多聪明而又杰出的科学家选择了从事于一些影响力相对较低的领域,例如广告技术、产品建议以及微型网络社交。另外,大量的深度学习研究人员都致力于“构建大脑”的研究,却没有集中精力去解决对人类社会更有意义的现实问题。

还有一个出人意料的障碍是,医学领域的划分太细致太专业了,很难为那些比较综合的医疗问题提供专业的指导意见,必须要细化。深度学习的方法的确能够帮助医疗领域解决某些问题,但是传统医学笼统的细分方法是为一大障碍。

问题四:您作为 Kaggle 的冠军选手及 Kaggle 的前任主席而被世人所熟知,能否分享一下您在 Kaggle 任职期间的成就?对于想名列前茅的 Kaggle 参赛选手您有什么鼓励与建议?

针对深度学习、数据科学等话题对Jeremy Howard专访

在 Kaggle 赛场上的那段时光确实有很多收获——事实上,在竞技赛场上对于机器学习知识的了解要比我参赛前二十年加起来的认识还要多。另一方面的收获就是,参赛过程中我非常的享受的,就是在过去的几个月为了琢磨如何设置我们深度学习的课程,我深入地研究了几个 Kaggle 数据库。此外,在 Kaggle 的比赛中,能够看到有团队凭借深度学习的最新研究成果获得好成绩,也是一件令人欣喜的事。

对于想在比赛中取得好成绩的参赛选手,或者说对于其他想提高专业技能的机器学习从业人员,我想表达的很简单: 每天都向竞赛组委会提交作品。

在理想状态下,每天请至少用30分钟的时间研究你要提交的作品,哪怕只是花5分钟去调整某些参数,也胜过什么都不做。因为如果你坚持每天都提交作品的话,就说明每天都在思考和调整,那么你在比赛结束时一定会有很多的收获。另外,及时地查看胜出选手更新的博客,会让你学到更多的东西。在以后的实际工作环境中,很难有机会去处理这些严格定义的数据库。当然,能跟世界顶级的数据科学家们一起做基准测试挑战的机会也就更少了。

问题五:随着数据科学不断自动化的发展趋势,您认为在未来5年中,数据科学家们应该关注培养哪些技能,才不至于被自动化算法替代?

事实上我希望在未来几年中,数据科学家在数据科学方面的作用越来越小。相反,我们会看到数据科学们将更多的融入到其他的职业之中,例如医疗专家、律师和物流经理等。因此我认为,数据科学家应当了解公司创造价值的过程、各行各业协同工作的机制以及组织的架构。最重要的是,数据科学家们应该找到某种方法,严格认真地检验自己在当下从事的领域的影响力,并且与这一领域的专家相互合作,最终增加自己的影响力。

实际上,我也无法确定当今的哪些技术会在5年后依然重要;所以我认为,数据科学家们的适应能力和学习学习能力才是最主要的。

问题六: 您认为深度学习方法在未来5年会发展成什么样子?在各个领域,深度学习最终会不会全面超越人类?或者说,有没有哪些领域,人类是能够永远保持领先的?

我认为深度学习的极限是很难预测的,何时能够达到这个极限也无从知晓——因为从当下来看,要想达到这个极限依然非常遥远。但是,几乎每次我看到有人试图用深度学习方法来解决他们面临的某个问题时,他们似乎都能取得成功。举个例子,有一位医学博士候选人曾经告诉我,他利用5个小时深度学习方法训练取得的科研成果,已经大大超过了他此前5年的研究成果!

我相信在创造性领域和技术展示方面,人类将永远保持领先,因为人类更专注于观察他人的表现。比如,在艺术和创作领域,Mike Loukides 就发表了自己的独到见解(详见链接:https://www.oreilly.com/ideas/artificial-creativity)。

问题七:您曾是奇点大学(Singularity University)最年轻的教职工,请问您当时的工作内容是什么呢?还有,您对所谓的人工智能发展的奇点(singularity)怎么看待?它真的会到来吗?什么时候到来呢?人工智能发展的奇点到来后,人类又将会做什么呢?

我已经不认为我现在是最年轻的教职工了!每年我在奇点大学最重要的工作之一就是教授“全球问题解决方案计划”(Global Solutions Program)。80位全球最聪明和最富有激情的科学家们每年都会聚在一起,探讨如何解决人类目前面对的最棘手的问题,我很幸运能够有机会指导他们如何将数据科学技术融入这个过程。

其实奇点大学不是一所传统意义上的大学,更与所谓的人工智能的奇点无关。有人可能会说“奇点大学”这个名字很差吧。实话说,我也并不知道是否会有技术发展上的奇点,也不明白为什么有人可以声称他们知道到这个奇点将会到来,更别提什么时候到来了。

问题八:我不太确定问您离开 Kaggle 和 Enlitic 的原因是否合适,可能会牵扯到私人的原因。如果您不介意,能否谈谈为什么离开 Kaggle 和 Enlitic? 我们的读者可能会比较感兴趣。

离开 Kaggle 并非一个艰难的决定,因为我从来都没打算成为 Kaggle 的一名正式员工,一开始只是想做志愿服务。但令人意想不到的是,后来 Kaggle 从风险投资家那里募集到大量的资金,因此我只好以全职员工的身份加入。再后来, Kaggle 决定将100%的精力集中在石油天然气的数据分析业务上,这并不是我的初衷,因此就离开了——正如我之前提到的,我及其渴望利用深度学习技术解决一些实际的社会问题。接下来的一年,我一直在研究深度学习以及利用深度学习解决实际问题,后来逐渐进入了医疗信息领域。

离开 Enlitic 则要艰难的多。最初是由于家人健康的原因,我离开了 Enlitic 一年。一年后当我重返公司时,我发现那时的 Enlitic 已经不是我当初创立的样子,变成了一家营业性高于科技研发的公司。其实在创办 Enlitic 之前,我就仔细思考:改变医疗行业现状的最佳途径到底是什么?是通过进入学术界进行前沿的学术研究,还是创办一家成功的医疗科技公司?我当时的思考结果是创办公司。但通过 Enlitic 的创业经历我意识到,面对医疗这样一个需要消耗大量经费和基础性研究的领域,创办以外部融资为主要生存手段的创业公司并非明智之选。因为投资者和公司员工都面临着巨大的压力,他们都迫切地希望公司的股价一路高涨。

话虽如此,我也不并确定进入学术界是否是一个更好的选择,但我仍觉得值得一试。这也是为什么我和好朋友 Rachel Thomas 一起自费创办学术分享平台 fast.ai 的原因。

问题九:除了计算机以外,您在其他方面有什么兴趣爱好吗?最近有什么推荐书目吗?

我最享受和女儿在一起的时光。她几乎对所有的事情都充满兴趣和好奇,我爱极了!平日我尽可能多花时间来阅读深度学习方面的相关论文和参考文献,因此没能有时间阅读其他的书籍。说实话除了深度学习,我也很难找到其他什么东西能引起我的阅读兴趣!话虽如此,我有时候也会在晚上听一些轻松的有声读物。最近我在听 PG Wodehouse,还挺喜欢的。

本文由 AI100 编译,转载请联系本公众号获得授权


编译:AI100

原文链接:http://www.kdnuggets.com/2017/01/exclusive-interview-jeremy-howard-deep-learning-kaggle-data-science.html


相关推荐