qudaqu 2017-12-21
参与 | 鸽子,Donna
刘强东的猪脸大赛刚刚结束, 李开复联合王小川、张宏江的AI Challenger-全球AI挑战赛决赛也紧跟着来了。
另一方面,由于李飞飞教授的ImageNet已经在今年宣布成为“历史”,开复希望“AI Challenger”可以接棒ImageNet,甚至做的比ImageNet更深更大。
那么,“超级网红”开复同学打造中国版ImageNet的梦想到底实现了多少呢?以下是营长带来的最新信息。
李开复在现场演讲中,多次提到“数据是燃料”这一观点。据内部人士透露,创新工场独资成立的人工智能工程院,未来2B的一块已经启动的业务也是大数据。
本次AI Challenger 大赛采用AB双测试集赛制,共有图像中文描述、人体骨骼关键点检测、场景分类、英中机器文本翻译、英中机器同声传译五场比赛。
比赛历时三个多月,共有来自65个国家的共计10579名选手组成的8892支团队参赛。其中,7898支团队是来自中国高校、巨头企业或者新锐企业,另外994支为海外团队。
过去的三个月中,这些团队分别在五个赛道分别进行了线上比赛,产生了线上排名。其中,场景分类的线上排名就是最后的名次,另外四个赛道中,线上排名占80%,另外20%取决于评委的现场打分。
本次比赛的评委,分别为旷视科技首席科学家孙剑;微软亚洲院的资深研究员梅涛;哈尔滨工业大学的赵铁军教授;南京大学的黄书剑副教授;厦门大学的史晓东教授;中科院自动化所的王亮老师;以及创新工场人工智能工程院的副院长王咏刚先生;搜狗机器翻译赛道与技术相关负责人王宇光;奇点机智联合创始人,原谷歌研究院高级管理科学家、ACL Fellow林德康;清华大学副教授,国家优秀青年基金得主刘洋。
经过比拼,五个赛道的冠军名单已经诞生,以下为详细信息。AI科技大本营对冠军团队的第一时间采访。采访,希望他们的经验对你有所帮助。
冠军团队名单
图像中文描述组:KaKa团队
清华大学计算机系副教授胡晓林博士带领清华计算机系余年革和北大计算机系程惠阁两位选。该赛道的冠军奖励金额是30万人民币。
采访:
1.感觉你参加的这一场同声传译得比赛难不难?难在哪里?
难,难在把模型的效果做到极致。
2.你觉得能得冠军,最关键的因素是你们哪个地方做得比较好?
我觉得,我们引入主题模型做了样本均衡,主题信息作为模型的输入。
3.参加完,有哪些心得可以跟其他选手学习和分享呢?
需要找到一个自己感兴趣的任务,全力投入。
4.有参加过其他比赛吗?感觉有什么不同呢?
没有。
5.团队现在已经接到哪些公司的offer了呢?
创业公司和大公司都有。
人体骨骼关键点检测组:Firefly团队
来自商汤科技的李全全和来自北京航空航天大学计算机学院的王昌宝和王宇杰三位选手。该赛道的冠军奖励金额为30万人民币。
关键PPT展示:
场景分类识别组: 电子科技大学^_^ 团队 (是的,你没有看错!)
电子科大信号与信息处理专业的帅靖文、张顺丰和蒋尚达。该赛道的冠军奖励金额是10万人民币。
英中机器文本翻译组: 猎豹移动
首席科学家闵可锐带领宋洪伟和李晓普两位选手。该赛道的冠军奖励金额为30万人民币。
采访:
1.感觉你参加的这一场同声传译得比赛难不难?难在哪里?
我们参加了文本翻译和同声传译两个项目,问题还是比较有挑战,这次组委会公布的数据是千万量级的,需要反复迭代改进模型,而模型训练时间会比较长。
2.你觉得能得冠军,最关键的因素是你们哪个地方做得比较好?
首先是在算法大框架上的确立。另外我们做了很多的尝试和优化,包括前处理,后处理,模型融合,增强学习,解码策略改进等。
3.参加完,有哪些心得可以跟其他选手学习和分享呢?
细节的处理非常重要,模型融合也对结果很有帮助。
4.有参加过其他比赛吗?感觉有什么不同呢?
之前参加过NLP分词和百度的实体搜索等比赛,也取得了不错的成绩。不过总规模来讲,这次AI比赛是最大的,也很高兴能跟各位高手同场竞技。
英中机器同声传译组:中科院自动化所
指导老师徐波所长带领自然语言处理专业的张晓伟、王峰和董倩倩三位选手。该赛道的冠军奖励金额为40万人民币。
采访:
1. 感觉你参加的这一场同声传译得比赛难不难?难在哪里?
比赛有一定难度,一方面训练集与测试集存在较强的不一致性,另一方面测试集上性能波动较大,对一些方法的性能验证存在难度。
2. 你觉得能得冠军,最关键的因素是你们哪个地方做得比较好?
能获得冠军,我觉得最重要的是各个方面都要做到最好,每个环节都要进行充分的优化。我们用精心设计的CNN模模型进行标点处理,并对语料做了标准化处理,在目前效果最好的翻译模型之上进行改进,并使用了多种优化方法。这些都是我们能获得冠军的重要因素。而跟进各个任务目前最好的结果,我们认为是最关键的因素。
3. 参加完,有哪些心得可以跟其他选手学习和分享呢?
首先是要端正自己的比赛态度,明确自己参赛的目的。然后是要坚持,比赛是一个长期的过程,需要一颗持之以恒的心态。团队合作是极其重要的,一个好的团队氛围对整个最终比赛结果有至关重要的影响。比赛过程中要记录每一个细节,要有足够的细心,当然也需要大胆尝试,勇于创新。
4.有参加过其他比赛吗?感觉有什么不同呢?
之前没有参加其他比赛
5. 团队现在已经接到哪些公司的offer了呢?
总结与展望
比赛结束后,创新工场人工智能工程院王咏刚对这个比赛做了总结。
本次比赛中,场景分类参赛团队最多,共有2004个团队参加。其他四个赛道的参赛团队数分别是人体骨骼关键点检测-1735个团队;图像中文描述-1479个团队;机器翻译-1204个团队;以及同声传译-675个团队。
本次比赛的三大特点分别是紧贴前沿科研任务需要;超大规模的高质量数据;打造开放的世界级平台。而创新工场目前对数据集建设的初步规划涉及了目前最贴近行业的视觉领域;自动驾驶领域;自然语言处理领域;金融、零售、交通物流和基础建设领域。
王咏刚
在今年的“AI Challenger”成功落下帷幕后,王咏刚还透露了2018年大赛的年度目标:
吸引更多国际、国内的高水平参赛队伍
建立算法、代码、论文、数据、比赛的分享和交流平台
建设更多、更贴近前沿科技需要的数据集
设计更高水准、更加多样化的比赛形式
围绕数据集和竞赛平台开展算法和技术培训
参加或主办相关的学术会议和技术论坛
加强多方合作,欢迎政府、企业和研究机构等积极参与