ScalersTalk成长会 2018-01-29
近日,在新加坡举行的ACM CIKM2017 会议上,中科院网络数据科学与技术重点实验室程学旗老师团队的博士生范意兴(导师:郭嘉丰)为第一作者的论文“Learning Visual Features from Snapshots for Web Search”(作者:范意兴,郭嘉丰,兰艳艳,徐君,庞亮,程学旗)获得了Best Full Paper Runner-up Award,同时郭嘉丰研究员获得的Outstanding Paper Reviewer奖项。这是继 2011 年网络数据实验室的论文“Intent-aware query similarity”(作者:郭嘉丰,徐谷,朱小飞,程学旗)获得CIKM Best Paper Award之后,该团队的研究工作再度得到CIKM大会的肯定。
中科院网络数据科学与技术重点实验室是中科院首个大数据方向的重点实验室,是中科天玑团队的重要组成部分,为中科天玑的大数据和深度学习技术提供了重要技术支撑。网络数据实验室在中科天玑董事长、中科院计算所副所长程学旗研究员的带领下,长期在智能搜索、机器学习、社会计算、大数据引擎系统等方向上开展基础研究。近年来郭嘉丰研究员、兰艳艳副研究员及其所在的团队一直专注于深度学习搜索(NeuIR)研究方向。
本次获奖的研究工作是智能搜索团队在NeuIR方向上的最新探索,从视觉感知的角度研究相关排序,打破了一直以来排序以文本匹配和链接分析为主的模式,从而能充分利用深度学习在图像层面的能力直接提升信息检索性能。
众所周知,查询与文档的相关性建模一直是信息检索技术研究中的核心问题,当前的信息检索系统广泛采用机器学习的方法来计算网页相关性,其中非常重要的一步就是构建能够描述网页相关性的特征。
传统的特征构建方法大都基于网页中抽取出的文本元素(如标题、正文等)或者链接/点击信息来构建,然而网页并非只是相互链接的文本数据,而是经过精心设计、有着结构化外观的页面,页面布局所携带的丰富的视觉信息本身就能够传递很多相关性信息。
例如一个权威的、高质量的网页通常具有良好的布局,而一个低质量的垃圾页面,则可能充斥各种广告信息;而查询词在网页上的分布、大小、颜色等,更是能够为网页相关性判断提供丰富的信号。
基于此,中科天玑团队的师生们首次从视觉感知的角度学习相关性特征,即让机器学习算法像用户查看网页一样直接来感知相关性信号。具体的,他们将网页渲染成两类快照,即查询无关和查询相关的网页快照。
在此基础上,受人们在阅读网页时视觉浏览模式( F型浏览方式)的启发,设计了一个深度感知模型ViP(如上图)从网页快照中直接学习相关性特征,学习到的视觉特征可以和很多传统特征共同决定网页的相关性。
此外,他们还为网页快照提出了一个高效的索引机制,以便能在实际搜索系统中快速获取查询无关以及查询相关的网页快照。通过在公开数据集上的实验表明,视觉感知获得的相关性特征能显著提升传统的基于人工定义特征的排序性能。
ACM CIKM是国际计算机学会主办的信息检索领域的重要学术会议, 2017 年CIKM在新加坡泛太平洋酒店举办,本届会议参会人数达到 700 人数以上,全球 40 多个国家的研究人员与国内外产业巨头均积极参与本次盛会。本届大会共收到稿件 1450 篇(其中长文投稿 855 篇),长文录用 171 篇(录用率20%),大会在投稿规模逐年增长的同时,录用率相比往年还有所下降,可见录用竞争非常激烈,相关的研究工作体现了信息检索、数据库和知识管理领域国际前沿的研究水平。
在本次会议上,中科院网络数据重点实验室共发表 4 篇长文和 1 篇短文。本次录用的工作中有两篇长文都是这个方向上的最新成果。
免责声明:本文为厂商推广稿件,企业发布本文的目的在于推广其产品或服务,安科网发布此文仅为传递信息,不代表安科网赞同其观点,不对对内容真实性负责,仅供用户参考之用,不构成任何投资、使用等行为的建议。请读者使用之前核实真实性,以及可能存在的风险,任何后果均由读者自行承担。