黄刚的技术 2017-12-12
第31届神经信息处理系统大会(NIPS)上周在加州长滩(Long Beach)举行。NIPS可以说是AI领域最有声望的学术会议之一。今年也是出席人数最多的一次。近几年NIPS的出席人数一直急剧上升。
大型AI会议出席人数趋势图(来自AI Index)
AAAI:国际人工智能协会
IJCAI:人工智能国际联合大会
NIPS:神经信息处理系统大会
CVPR:IEEE国际计算机视觉与模式识别会议
ICML:国际机器学习大会
ICRA:机器人与自动化会议
ACL:国际计算语言学学会年会
你可能猜到了,提交审查的论文数量也在增加。2016年论文提交共2406篇,接收了568篇论文,接收率为24%。今年论文提交共3240篇,接收了679篇,接受率为21%。
自从我攻读博士学位以来,NIPS就一直在我的关注中。上周,我宣布加入一家新的机器学习初创公司Infinia ML,决定与Lawrence Carin合作。Lawrence是机器学习领域的重要人物,NIPS就是一个很好的例子。Lawrence的团队今年在NIPS发表了10篇论文,这是很了不起的成就。这驱使我对接收的679篇论文背后的人员以及机构做了一些分析。
研究NIPS并不容易
除了了解哪些研究员(例如Lawrence)被NIPS接收了论文,我很想知道哪些机构是最多产的。就像Andrej Karpathy为ICML所做的那样,我认为这是一项简单的数据挖掘任务,特别是NIPS和ICML用了同样的网站。
在十月,当我查看接收论文初始列表时(可以在Wayback Machine上找到),格式长得是这个样子:
这是可行的。它有我所需要的所有信息,包括论文、作者名单、所属机构等。写个脚本解析并生成我需要统计的信息应该不难。但是,这是我第一次接触不同机构所使用的各种名称。例如Google有10种不同的方式来表示,IBM有11种不同的版本。因此我需要一些手动清理。这也没啥。
当我想获取更新后的统计信息(为了这篇文章),更大的问题来了。以上文那种完美格式呈现的接收论文最终名单不见了。有几个地方可以找到最终名单,但有一个问题:没有一个界面包含了每个作者所属机构。我做了一些搜索,但找不到其他来源。我本打算从论文里将机构提取出来,但在浏览了几篇论文之后,我发现论文并没有标准化作者栏的格式,以至于它本应该是一项快速任务,现在看起来像一个大工程。
NIPS2017接收论文名单的片段
对我来说,仅存的另一个选择就是,期待9月份最初发布的文章列表没有太多的修改,这样一来,就可以将9月版中的机构信息应用于12月版。我可能需要配对这两个独立的数据集,并核对其不同之处,因而,数据解析工作可能会变得非常复杂。同时,这也意味着,对于9月版里面没有出现的新作者而言,我无法得到其机构信息。
毕竟,我一直想找到的只是大概的的数据,而不是百分之百精确的统计结果,所以我继续往下进行了。
9月份和12月份文章列表的区别
9月份和12月份两个版本的文章数量没有变化,但是其中有部分的文章标题稍做调整,部分文章甚至把标题完全改变(这使得两个版本间的匹配非常困难)。从两个列表的679篇文章中,我能够找到完全匹配一致的560篇文章。
此后,我又使用一些简单的规则,匹配了剩余文章中的98篇。举例来说,查对标题从前数20、15或10个字母,或者标题从后数20、15或10个字母中,看看是否可以匹配。
最后,12月份的文章列表中只剩下21篇文章,无法从9月份的文章列表中找到相对一致的匹配标题。
接下来进行作者匹配,从2035位作者中,我能够匹配1886位作者。剩下来149个作者未能匹配,标记为“无组织”,仅占全部作者总数的93%。看起来又是一次不那么完美匹配,但是,对于我的目的而言,这些已经足够了。
现在终于可以开始做点儿有意思的事儿了!
关于都有谁参加了类似NIPS这样的会议,我有一大堆问题,不过,其中最核心的问题是:谁是最多产的作者。如果你还记得上个世纪九十年代末期和本世纪早期是什么样子,如今发布文章就好比10-20年前的争着申请专利的竞赛。幸亏现在发表文章与知识产权(比如专利)无关,这也是我喜欢AI复兴的部分原因。
作者信息的统计
正如我稍早提到的,杜克大学的Lawrence Carin团队在NIPS发表了10篇文章。他位于排行榜第一位,其他作者根本没法和他们比。当然,这并不意味着Lawrence是这10篇文章的第一作者,可是,他监督管理着所有的研究,并对所有10篇文章都有贡献,其研究领域囊括几个主题,有文本分析、图像合成、大脑动态局域潜力分析,让人叹为观止。
通常情况下,一篇文章的最后一个作者就是该研究团队的负责人,或者管理着多个不同的研究项目。所以,当你看到Lawrence和象Bengio这样的其他知名人物一起出现在下表,就不会感到惊讶了。
反过来说,文章的第一作者则通常就是做苦活累活最多的那位。有三人分别贡献了三篇第一作者文章,真的是劳模。
有关研究机构的数据
现在我们来看看发表在NIPS文章量排名前五十的机构。我没有把谷歌和DeepMind放在一起,这样能看出谷歌多占比例之大。卡耐基梅隆,麻省理工,斯坦福和伯克利是前四的大学。谷歌,微软和IBM是跻身前列的公司。
这些数据和ICML的很相似。
接下来,我想看看有多少机构的名字是列在文章中第一位的,因为这意味着谁带领或发起了这些研究。下图数据显示谷歌排在第四位,这说明虽然谷歌被列在很多文章上面,但他们所做的不仅仅是带领整个研究。
最后,我想看看每个机构有多少作者。这又一次能够看出多少人在这些机构参与带了尖端的研究。在这儿,凯耐基梅隆有很大的优势。
总结
我从这次的统计数据中得出了一下结论:
谷歌很明显是延伸研究方向宽度的领导者。他们的名字出现在大部分的论文中,如果你把DeepMind也加进去的话他们就是迄今为止在NIPS有最多作者的机构。
卡耐基梅隆是在学术机构中在NIPS发表文章的领导者。他们有最多的第一作者而且除谷歌和DeepMind之外最多的人参与到文章的编制中。
杜克大学的Lawrence Carin有在NIPS最高产的一组研究人员。他也相比其他人参与到了更多的文章。杜克大学在大学中总文章量、第一作者文章量和总作者数量排名前十。
*有关机构名称的备注
让我突然感到有点搞笑的,我花了好多功夫来研究这个展示着在最新的机器学习研究的世界性的学术会议,虽然好像我的任务看起来很简单,只是要把这些数字整合在一起。其实只要稍微做点努力(比如,12月的最终列表能够使用9月时相同的格式),这花了一整个周六下午时间的工作其实一个小时就能完成。
不仅如此,公司、大学和科研机构或许也要开始标准化其文章被引用的方式。现在,发表的论文有极大的价值 -- 在未来,会有很多人频繁的做如我在这篇文章中所做的统计数据工作。一个机构多种多样的名字会给提供精确的统计数据工作带来很大的麻烦。
下图展示了我如何把最常变换名字的机构整合到一起的小部分代码,我打赌你不知道IBM有11种拼写方法: