denwill 2018-06-11
新智元报道
来源:IJCAI-18阿里妈妈国际广告算法大赛
编辑:文强
【新智元导读】IJCAI-18阿里妈妈国际广告算法大赛上周结束,来自中国的团队包揽了冠亚季军。冠军方案采用了迁移学习的方法,核心代码只有一页。
IJCAI 2018阿里妈妈国际广告算法大赛上周圆满结束,有来自50多个国家和地区的6000多名选手组成的5300多支队伍参赛(有700多名来自国外)。
中国团队包揽了前三名。
实际上,进入决赛的8支队伍均来自中国。
这代表了中国在整个互联网算法,在大数据、人工智能相关的研发中已经跟国际同步,甚至有所超前,阿里妈妈副总裁张勤在决赛答辩的致辞中说。
目前,各大公司纷纷举办算法大赛,提供数据、工具和真实的业务场景,吸引在学术界和工业界的顶尖人才。
谷歌收购Kaggle,微软收购Github,其中一个很大的因素,都在于后者所保有的开发者。
算法大赛本身,就是一场更大背景下的竞赛。
广告预估算法:价值千亿美元的学术问题
IJCAI与阿里有多年的大赛合作历史。IJCAI全称International Joint Conference on Artificial Intelligence,是人工智能领域最好的学术会议之一,涵盖机器学习、计算可持续性、图像识别、语音技术、视频技术等内容,在学术圈中享有很高声誉。
最近几年,IJCAI都会与阿里巴巴集团联合举办机器学习比赛,已经成为保留项目。阿里通过IJCAI的平台吸引更多的人关注阿里,IJCAI则通过阿里大赛吸引更多人关注和支持IJCAI,这是一个双赢,IJCAI大会代表、悉尼科技大学数据科学学院院长张成奇教授说。
今年的大赛与阿里妈妈合办,于2月初正式启动,是参赛人数最多,覆盖范围最广的一届——除了南极洲,其他6个大洲都有选手报名。
截止今年4月的报名情况,选手覆盖范围非常广
这届算法大赛的主题是广告。
在当前的互联网生态系统,搜索广告是最常用的营销方法之一。广告商为产品设置几个关键字,然后将产品推荐给搜索了这些关键字的用户。据统计,截止2017年底,搜索广告的总收入已经超过1000亿美元,占互联网广告总收入的50%以上。搜索广告也为大多数互联网公司,比如Google和Facebook,贡献了大部分的收入。
搜索广告以也其巨大的商业价值和研究价值,吸引了大量的专家学者,在学术界得到了广泛的研究。
本次比赛以阿里电商广告为研究对象,使用阿里妈妈提供的海量真实交易数据,构建预测模型,预估用户的购买意向,也即广告的转化率。
电商平台作为一个复杂的生态系统,其中的用户行为偏好、商品长尾分布、热点事件营销等因素,都是转化率预估要解决的难题。
大赛的评审告诉新智元,这种业务场景的不同,对于参赛着的挑战是不一样的;不同于传统搜索引擎中关注文本相关性,在购物场景下,模型需要对用户意图有更好的理解。因此,参赛者必须充分分析用户的行为特点,在特征设计和提出上有更多的创新。
本次大赛阿里妈妈拿出了用户在交易场景中的真实数据,含有用户真正的序列化的购物行为。初赛的数据集近60万,决赛超过1000万。
冠军技术分享:用迁移学习方法做广告转化预测
6月5日,进入决赛的8支队伍在杭州阿里巴巴总部做了最终答辩。
选手的平均年纪不到25岁,来自高校和产业界的都有,比例大约一半一半。根据赛前调查,大部分人参与的原因是出于兴趣和锻炼自己,当然也有人明确表示,是希望毕业后进入阿里妈妈就职。
上海交通大学助理教授张伟楠、国家科技部云计算专家组成员/天壤智能创始人及CEO薛贵荣、阿里巴巴研究员吴波、阿里巴巴资深算法专家杨红霞、阿里妈妈资深算法专家刘凯鹏等作为评委出席了答辩。
大赛评委表示,整体看,这次比赛大部分的方案都有比较强的系统性。选手在数据分析方面做了很多的工作,充分的理解了业务场景。在特征工程上,非常精细、全面,也有不少新颖和特别的特征设计。在模型选择上,充分考虑数据规模,业务特点,模型选择合理。
根据复赛成绩和现场答辩表现,评出了一二三等奖各一名,以及两名创新奖。
i) 禁止实习咋找工作啊(张卫民,中科院计算所;庄晓敏;中科院;李昊阳,香港科技大学)
ii) 强东队(李强,吉林大学;沈冬冬,山东大学;蒋浩然,中南大学)
冠军方案:采用迁移学习,核心代码仅一页
给评审留下深刻印象的是本次大赛的冠军队伍——虽然是“队伍”,但只有一个人,花志祥。
冠军花志祥与竞赛评委合影
花志祥是数据竞赛的老手,并且已在国内外多个算法大赛中斩获冠军。他的参赛口号/座右铭也非常简单——“一个字,干”。
评委表示,DOG对方案最大的特点整体非常简洁,设计思路清晰。针对这次比赛中测试数据和训练数据分布差异的问题,这个方案采用了一些迁移学习的方法利用训练数据。特征设计上有亮点,没有暴力地去融合很多特征,而是针对数据特性做了很简洁的特征设计。工程上也非常简洁,全部代码只有一页,有比较好的实用性。
冠军方案模型示意
这次的赛题,结合淘宝平台的业务场景和不同的流量特点,分为日常转化率预估(初赛)和特殊日期的转化率预估(决赛)。初赛是提供前7天的记录预测第8天,复赛提供前7天和第8天上午的记录,预测第8天下午的情况。
通过分析,花志祥发现初赛的转化率每一天基本相似,但在复赛中,前7天跟第8天的差别很大。基于这种情况,他在决赛时做了一个模型,使用迁移学习的方法,用第1到7天的数据,预测第8天上午和下午,两者一起预测。
在特征方面,使用了统计特征、时差特征、排序特征和表征特征这四种。统计特征就是用户点击的次数,看过的页数,搜索的小时,还有点击的品类的个数。时差是用户与商品item交互的时间距离;在真实的场景中,我们只能用到用户距离上次的时间,拿不到下次的时间,在整个比赛中,这有一定程度的数据穿越,所以最终采用的是用户点击某一个品类,距离上次的时间和下次的时间。排序特征是用户user与商品item的交互次数。最后,表征特征,用户对商品的哪些属性感兴趣,点击的ITEM有哪些属性,这样交互的特征越接近,购买的概率就越大。
最终的代码只有一页。
创新方案:特征设计和端到端模型
我们特别介绍一下在大赛中,创新性得分最高的两支队伍,也即获得特别奖的禁止实习队和强东队。这两个团队一个在特征设计上比较有创新性,一个在模型的使用上应用了较新的模型。
其中,禁止实习队比较充分地挖掘了在淘宝的场景下用户序列性的浏览商品商店的行为,提出了新方法,对用户的序列化行为进行特征设计,拿到了比较好的效果。
强东队则试图用end2end的深度学习来解CVR预估问题,相比其他团队,较有创新性,提出的方法接近工业界的架构。
NN模型在大数据下将非常有优势,不同于基于手工设计特征的传统机器学习方案,采用NN应用于CVR或CTR预估问题,具有训练时间少,内存占用小且不需要人工设计特征的优势,实现端到端的训练,自动从数据中提取高阶特征。在这个方案里,不等长多值Field特征通过padding补成等长输入到Embedding层对原始稀疏特征进行映射,借鉴了DIN网络的思路,创建Attention层对多值特征进行加权。在模型中加入一阶的LR层学习单特征,二阶的FM层学习二阶交叉特征,MVM层学习无限阶交叉特征,并引入deep层学习高阶非线性组合关系。
【新智元30万读者大调查】
【加入社群】
新智元 AI 技术 + 产业社群招募中,欢迎对 AI 技术 + 产业落地感兴趣的同学,加小助手微信号: aiera2015_3 入群;通过审核后我们将邀请进群,加入社群后务必修改群备注(姓名 - 公司 - 职位;专业群审核较严,敬请谅解)。