机器学习之家 2018-10-11
导语:本文回顾了Fashion-MNIST发布后的一年里在人工智能/机器学习学术圈和社区中所取得的进展。该数据集的初衷是替代MNIST,为机器学习提供一个新的基准集。一年里,Fashion-MNIST有超过250篇学术论文引用。来自Google, Cambridge, 北大, UCLA, Microsoft等250家研究机构横跨38个国家的研究员在实验中使用了这个数据集,他们的成果发表在NIPS、ICLR、ICML等顶会甚至Science等知名刊物上。
引言
距离我2017年8月发布Fashion-MNIST数据集已经有一年的时间了。正如我在其README中写到的那样:Fashion-MNIST的目标是要替代经典数字MNIST数据集,帮助研究者更好的评测和理解机器学习算法。在过去的一年里,我看到ML/AI社区朝这个方向不断前进着。越来越多的研究人员、工程师、学生和爱好者和初学者都爱上了这个数据集。
今天你可以在网上找到关于Fashion-MNIST数以千计的讨论、代码和教程。在Github,Fashion-MNIST已经获得了超过4100颗星星,被引用在400多个代码仓库中,1000多条commits里和7000多个代码片段中。在Google Scholar中,超过250篇学术论文使用或引用了Fashion-MNIST数据集。甚至连来自AAAS的「科学」(Science)杂志都引用了这个数据集。而在Kaggle上,这个数据集在数千个数据集中是名列前茅,并附有300多个Kernels。目前,所有主流的深度学习库都内置了这个数据集:你只需要一行import,就可以直接使用它。
毫无疑问,Fashion-MNIST是一个非常成功的项目。在这里,我会对它在过去一年里所取得的重要成就做一个总结。
我为什么会做Fashion-MNIST?
2017年8月的一天,那时我还在Zalando Research部门工作。我的上司让我调研一把生成对抗网络(GAN)并实现其中一两个模型,借机熟悉一下。我很快就写完并在MNIST数据集上做了测试。但我发现在MNIST上的生成结果似乎总是不错,无论你用的网络复杂度如何,参数设置如何。或许因为MNIST过于简单?于是,我决定增加一些难度,把公司数据库中的衣服图片扔到网络里去。很显然,这就需要我重新写一个用于输入处理的pipeline:把图片居中、调整白平衡、缩放等等,最后再载入到模型中。最终,我决定将图片做离线处理后,存储为MNIST的格式,省去了自己写data loader。这就是Fashion-MNIST最初的第一个版本。
随后的几天里,我一直在玩这个新数据集,利用它做各种实验。同时,我不断改善它的图片质量,并在Tensorflow, Keras中为它提供更通用的API接口。最终,我把它发布为公司内部的一个开源项目(inner source project)。在我的前同事Kashif Rasul和Lauri Apple的鼓励下,我们最终决定把这个数据集发布到Github和arXiv上。为了在国际上扩大影响力,我也将数据集的说明翻译成了中文和日文。剩下的事情可能大家都已经知道了:这个数据集最先被Reddit下的r/MachineLearning板块讨论,随后迅速在HackerNews, Github,Twitter和Facebook上传播开来。连续三天内,Fashion-MNIST成为Github上最热门的开源项目之一。几天后,甚至Yann LeCun本人都在他的Facebook主页上发帖鼓励大家尝试这个新数据集。
在这次的经历中,我想特别感谢我的前同事Lauri Apple的支持。Lauri是一位长期致力于开源事业的女性。在一开始,我的想法(采用Fashion-MNIST替换MNIST)遭到其他人的嘲笑和不理解,他们认为圈子里根本不会在乎这个数据集。这个时候,Lauri站了出来告诉我:那些真正做出改变的人永远是那些相信改变的人(people who actually make change are the ones who believe that change is possible)。
Fashion-MNIST对学术圈的贡献
在我今天写这篇总结的时候,已经有超过260篇学术论文在实验环节引用或使用了Fashion-MNIST数据集(根据截止9月18日的Google Scholar结果)。考虑到数据集仅仅发布1年,这个数量还是非常可观的。经过一番筛选之后,我留下了其中247篇放在了一个Google表格里,大家可以自行查阅。那么这247篇论文出自谁之手,在哪发表,又研究了哪些问题?在下面,我会向大家做一个全面的介绍。
顶级的AI研究机构青睐Fashion-MNIST
下图给出了247篇论文中按照机构的统计图。如果一篇论文由多个机构合作完成,则在统计时每个机构都加1。而如果一篇论文中多个作者来自同一机构,则这一机构只加1。并且,我还把同组织的机构合并在一起,比如Google Research, Google Brain, Deep Mind合并为了Google;马普(Max Planck Institute)旗下的信息所、智能所和量子光学所合并为Max Planck Institute。为了更加清晰的展示,论文数量小于3机构没有在这里展示,但大家仍然可以在这里查看全部机构的统计列表。
在这个图表中,我们不难发现来自北美、亚洲和欧洲地区顶尖的AI研究机构。在它们之中,Google以9篇使用Fashion-MNIST的论文位居榜首。其次是英国剑桥大学,7篇;IBM Research、加拿大蒙特利尔大学、北京大学和加州大学洛杉矶分校以6篇并列第三。中国方面,除北京大学外,中科院、南京大学、清华大学及京东也非常青睐Fashion-MNIST这个数据集。而在工业界,除了已经列出的Google, IBM Research和Microsoft,在完整列表中可以找到更多大家耳顺能详的公司Facebook (2篇), Telefónica Research (2篇) Uber (1篇), Apple (1篇), Samsung (1篇), 华为 (1篇) and Twitter (1篇)。同时,我还注意到有不少北美地区的机器视觉创业公司也在Fashion-MNIST数据集上做了非常有意思的研究,并发表了高质量的论文。
AI领域的竞争和合作
下图展示了这些文章出自于哪些国家或地区。如果一个论文由多个国家或地区合作完成,则在统计时每个国家或地区时都加1。而如果一篇论文中多个作者来自同一国家或地区,则这一国家或地区只加1。为了更清晰的展示结果,论文数量小于4的国家或地区没有在这里展示,但大家仍然可以在这里查看全部国家或地区的统计列表。
很明显,美国以94篇引用Fashion-MNIST的论文的绝对多数占据了榜首,其次是中国44篇。加拿大、英国德国的研究人员也显示了对这个数据集的浓厚兴趣,分列第3,4,5位。榜上前5名的国家贡献了大约50%的论文量。总体来讲,共有来自38个国家的研究人员在他们的论文中使用了这个数据集。
尽管中美AI领域竞争激烈,但我们仍然看到两国在AI研究领域中大量的合作。在过去的一年内,两国共有10篇合作的论文使用了Fashion-MNIST数据集,高于任何其他两国之间的合作。其次是英国和德国,共合作了4篇论文。完整的国家地区合作列表可以在这里看到。
我非常愿意看到更多的国家与国家之间在AI领域的合作。这也是Fashion-MNIST的使命之一:增加整个社区的凝聚力和多元化。特别是今天,当AI技术已经越出象牙塔,国与国之间的交流合作变得极为重要。
顶级会议青睐Fashion-MNIST
当然,论文不是靠数量而是靠质量取胜的。那么这些论文都是在哪里发表的呢?他们的质量又如何呢?下图给出了按照会议和期刊的统计表。我只统计了过去一年中已经确定被正式录取的论文,而那些正在审核状态的论文并没有在这个图表中展示。完整的列表可以在这里查看。
大部分的论文都是在2018年涌现出来的,尤其是在诸如NIPS, ICLR, ICML等顶会。在NIPS 2018中,一共有17篇录用的论文使用了Fashion-MNIST数据集。而2017年这个数字是:零。不过这显而易见,因为在NIPS2017年的5月份的投稿截止时,Fashion-MNIST还没有诞生。而在稍后一点的11月戒指的NIPS 2017 Workshop中,我们已经可以看到研究者在论文中使用了这个数据集。
除了在会议上发表,也有很多毕业论文和顶级期刊中引用到了Fashion-MNIST,其中知名的期刊包括:Journal of Machine Learning Research (2篇),Neurocomputing(2篇),Nature Communications (1篇), 和Science (1篇)!
Fashion-MNIST 在「科学」杂志中被引用
这其中最让我骄傲的一篇论文引用,发表在Science科学杂志上。
在这篇题为“All-optical machine learning using diffractive deep neural networks”的Science论文中,一个来自加州大学洛杉矶分校的团队建造了一个全光学的深度”神经”网络,并且用3D打印机打印了出来。这个光学深度神经网络功能上没什么不同,它能对MNIST/Fashion-MNIST的图像进行分类,只不过它的分类速度是——光速!
下图展示了MNIST和Fashion-MNIST模型上5个不同的物理层。这些层可以被3D打印出来,而层上面的每个点都有着不同的功能:或是允许光子通过,或是直接把光子反射回去,这就好比神经元之间的连接。在下图右侧,就是一个打印出的3D打印的全光学神经网络。
在实际分类时,这个3D打印的网络被放在如下的仪器中。通过判断在最后一层上光学信号最强的区域来获得分类结果。
GAN研究者青睐Fashion-MNIST
生成对抗网络(GAN)近几年一直是深度学习领域的研究重点,尤其是在图像生成、图像处理等应用领域,GAN经常能取得惊人的效果。也不难理解为什么GAN的研究员喜欢Fashion-MNIST这个数据集:它比较轻量;不需要重新写data-loader;却比MNIST包含更复杂的和多元的局部模式信息。对于图像GAN的研究者来说,在打造一个新的算法时,第一个测试就是在MNIST和Fashion-MNIST上进行测试。下图展示了247篇论文按照关键词分类结果。很多论文作者没有提供关键词,对于这些论文,我在读过Abstract和Related Work后,为这些论文手工总结了一些关键词。为了更清晰的展示结果,论文数量小于5的关键词没有在这里展示,但大家仍然可以在这里查看全部关键词的统计列表。
新的机器学习算法也喜欢使用Fashion-MNIST来做评测,例如胶囊网络(Capsule Networks)。胶囊网络自从发表以来就收到很多的讨论:有不少人质疑胶囊网络从设计上是否为MNIST做了特别的优化,而这种结构是否在其他数据集上仍然有效。不说大的ImageNet数据集,胶囊网络是否在Fashion-MNIST上仍然有效呢?在过去的一年里,有9篇新的胶囊网络的论文实验中使用了Fashion-MNIST数据集。他们设计了更稳定的路由算法以确保空间特征能够保留住。
Fashion-MNIST对社区的贡献
在我发布Fashion-MNIST几周后,我受邀到亚马逊柏林办公室做了一个演讲。在问答环节,我被一个研究员问道,是否担心Fashion-MNIST成为那些懒惰的研究员逃避现实问题的一个借口。毕竟,他们现在可以说自己的算法有了份”双保险”(在两个MNIST上验证过了)。
这个社区从来没有让我失望,这些高质量的论文已经很好的证明了自己。而除了学术圈的论文,这个社区还找到了Fashion-MNIST另一个重要用途:教学。在网上你可以找到数以千计的讨论、代码和教程,尤其是在机器学习入门的第一讲。Fashion-MNIST增加了整个社区的多元化:它吸引了很多年轻的AI(特别是女性)爱好者、学生甚至是艺术家和设计师。他们在Twitter上表示,第一眼看到这个数据集都会觉得非常可爱,因此很想动手实践。在2018年9月,Google在中国举办的开发者大会上,来自Google的演讲者使用Fashion-MNIST作为例子向在场的数百名参会者普及Keras深度学习库和机器学习技术。而就在前几天,2018年10月,Google Colab发布的TPU示例中,也使用了Fashion-MNIST作为演示的例子来展现TPU的超强算力。
总结
人工智能的进步需要来自整个社区的共同努力。我很欣慰的看到在过去的一年里,Fashion-MNIST为这个社区做出了自己的贡献:它不仅吸引了多元化背景的爱好者,也促进研究人员设计更严密更具说服力的实验。所以无论你是研究员、学生、教授还是爱好者,无论你是想把Fashion-MNIST用在讲座、论文、研讨会、竞赛还是培训中,只要你喜欢,都可以去做。最重要的是享受技术带来的乐趣,让更多的人体验到机器学习和人工智能的魅力。