小西0 2019-12-06
不到现场,照样看最干货的学术报告!
嗨,大家好。这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频——足够干货,足够新鲜!话不多说,快快看过来,希望这些优秀的青年学者、专家杰青的学术报告 ,能让您在业余时间的知识阅读更有价值。
人工智能论坛如今浩如烟海,有硬货、有干货的讲座却百里挑一。“AI未来说·青年学术论坛”系列讲座由中国科学院大学主办,承办单位为中国科学院大学学生会,协办单位为中国科学院计算所研究生会、网络中心研究生会、人工智能学院学生会、化学工程学院学生会、公共政策与管理学院学生会、微电子学院学生会,百度为支持单位,读芯术、PaperWeekly为合作自媒体。“AI未来说·青年学术论坛”第十一期“信息检索与知识图谱”专场已于2019年11月24日下午在中科院举行。百度周景博为大家带来报告《POI知识图谱的构建及应用》。
周景博,现任百度研究院商业智能实验室资深研究员。主要从事数据挖掘和机器学习相关的研究工作,研究方向包括时空数据分析和知识图谱等。周景博2014年从新加坡国立大学获得博士学位,毕业后曾任职于新加坡国立大学人工智慧系统研究院,随后于2015年底加入百度。他目前已经有多篇论文发表在计算机顶级会议和期刊上,包括SIGMOD,KDD,ICDE,TKDE,AAAI等。
报告内容:兴趣点(Point of Interest, POI) 是地图中能够提供信息和服务的位置点的总称,是构成电子地图的核心元素之一。通过构建POI知识图谱,对POI的描述语义和关系语义进行增强和优化,对建模真实世界、理解服务场景和更加智能化的辅助用户决策具有重要意义。POI知识图谱在搜索、推荐以及出行等位置相关服务中都发挥着重要作用。本次报告中周景博老师将介绍POI知识图谱构建和应用过程中的机遇与挑战,以及在这个领域的探索成果。
POI知识图谱的构建及应用
周景博老师首先简要介绍了自己的研究工作,即POI知识图谱工作。研究背景可以概括为,基于百度的大量时空大数据(比如,地图检索、移动端检索和相关定位数据等),通过机器学习、机器挖掘等人工智能技术来实现移动认知计算,增强对现实物理世界的理解。本次报告主要分为三部分:首先是背景简介,二是正在进行的POI知识图谱构建的基础研究工作,三是目前正在探索的应用。
POI指的是兴趣点,其中地图是非常核心的要素,地图中任何一个实体都可以作为POI,比如餐馆、酒店、旅游景点等都是POI。要做POI知识图谱,需要从两个角度出发,一方面是如何增强POI属性的描述。之前POI的相关工作更注重位置和名称等的构建,而在POI知识图谱中,需要强化POI的更多属性,比如人群属性、内容属性等。另一方面是需要建立POI之间的关系,特别是竞争关系。POI知识图谱目前已经在地图上取得了一些应用,对于不同场景,比如景点搜索、停车场搜索等,都可以帮助我们提高信息浏览效率。
周景博老师重点讲述了近期发表在KDD2019上的优化POI上的Tag质量的工作。通过对POI的特征词串(Tag)的抽取,可以挖掘出其构成要素之间的相互关系,打破了各网络所存在的信息孤岛。POI的Tag有非常多挖掘方法,可以简单归类为两种:一种是基于数据挖掘算法的提取,从评论、新闻、公众号等文本中尝试提取相关Tag;另外一种是人工标注。这两种方法是现在POI的Tag的主要来源。
上述方法都有两个共同的缺点,第一是信息不足。有很多POI没有足够多的评论信息或者描述信息。在地图上几千万个POI中,可能只有20%的POI的评论信息比较丰富,其他POI则没有太多的描述信息。所以需要使用更多方法增加对POI理解。第二是模型本身不准确,或者用户标注会引入错误。
POI的tag优化任务的核心是通过机器学习方法提高POI Tag的准确性。如何提高实体标注的准确性,也是知识图谱领域中经常研究的一个问题。该模型简单来讲,就是从POI基础属性、POI用户画像、用户检索信息中抽取相关特征,然后通过机器学习方法建模,来优化提高POI Tag的质量。
接下来周景博老师简要介绍了POI Tag的特征提取方法。通过统计特定POI的用户的分布,我们可以区分出不同POI的人群特点。比如,对于儿童游乐园和酒吧,他们的用户分布属性是完全不一样的。
其次是从图的角度来抽取POI tag的特征。如果很多用户既搜索了POI A也搜索了POI B,这样两个POI之间有很多共同检索。通过这种信息,我们可以建立POI的搜索图。通过搜索图,我们进一步可以统计到一个用户在搜索一个POI时,还搜索了哪些其他POI。比如,用户在搜索星巴克的时候,我们可以看到用户还会搜索电影院、酒吧、咖啡馆等其他的POI。POI之间的关联可以通过建立Tag分布统计图方式来呈现。
POI Tag优化方法的核心是优化POI-tag矩阵,包括矩阵去噪和矩阵补全等操作。对于此问题可以使用三种框架,一个是NMF(Non-negative matrix factorization),一个是Parir—wise 相似匹配,一个是MLE(Maximum likelihood estimation)。我们通过使用一致性正则化约束将三种方法融合在一起。其中NMF比较好理解,非负矩阵分解是在矩阵中所有元素均为非负数约束条件之下的矩阵分解方法。基本思想是给定一个非负矩阵V,NMF能够找到一个非负矩阵W和一个非负矩阵H,使得矩阵W和H的乘积近似等于矩阵V中的值。通过矩阵分解,可以对POI-tag矩阵进行去噪和补全。第二就是基于神经网络模型Parir—wise相似匹配方法。 通过将POI和Tag放到神经网络中,计算POI和tag的相似度,来建模POI和Tag之间的规律。最后是MLE模型,即目标分类模型,通过一个神经网络模型来预测一个POI的tag分布。最终预测结果会把三个结果融合在一起,来最后得到最优的结果。通过对比所有已有的基准算法可以发现,该方法果显著好于现在已有的模型。
随后周景博老师简要介绍了其他正在进行的工作。包括通过使用异构信息网络的方法来实现的POI关系挖掘,和通过POI知识图谱做特定区域的功能分析来做城市优化。
最后,周景博老师总结了POI知识图谱构建方法并对发展趋势进行了预测。
AI未来说*青年学术论坛
第一期 数据挖掘专场
1. 李国杰院士:理性认识人工智能的“头雁”作用
2. 百度熊辉教授:大数据智能化人才管理
3. 清华唐杰教授:网络表示学习理论及应用
4. 瑞莱智慧刘强博士:深度学习时代的个性化推荐
5. 清华柴成亮博士:基于人机协作的数据管理
第二期 自然语言处理专场
1. 中科院张家俊:面向自然语言生成的同步双向推断模型
2. 北邮李蕾:关于自动文本摘要的分析与讨论
3. 百度孙珂:对话技术的产业化应用与问题探讨
4. 阿里谭继伟:基于序列到序列模型的文本摘要及淘宝的实践
5. 哈工大刘一佳:通过句法分析看上下文相关词向量
第三期 计算机视觉专场
1. 北大彭宇新:跨媒体智能分析与应用
2. 清华鲁继文:深度强化学习与视觉内容理解
3. 百度李颖超:百度增强现实技术及应⽤
4. 中科院张士峰:基于深度学习的通用物体检测算法对比探索
5. 港中文李弘扬 :物体检测最新进展
第四期 语音技术专场
1. 中科院陶建华:语音技术现状与未来
2. 清华大学吴及:音频信号的深度学习处理方法
3. 小米王育军:小爱背后的小米语音技术
4. 百度康永国:AI 时代的百度语音技术
5. 中科院刘斌:基于联合对抗增强训练的鲁棒性端到端语音识别
第五期 量子计算专场
1. 清华大学翟荟:Discovering Quantum Mechanics with Machine Learning
2. 南方科技大学鲁大为:量子计算与人工智能的碰撞
3. 荷兰国家数学和计算机科学中心(CWI)李绎楠:大数据时代下的量子计算
4. 苏黎世联邦理工学院(ETH)杨宇翔:量子精密测量
5. 百度段润尧:量子架构——机遇与挑战
第六期 机器学习专场
1. 中科院张文生:健康医疗大数据时代的认知计算
2. 中科院庄福振:基于知识共享的机器学习算法研究及应用
3. 百度胡晓光:飞桨(PaddlePaddle)核心技术与应用实践
4. 清华大学王奕森:Adversarial Machine Learning: Attack and Defence
5. 南京大学赵申宜:SCOPE - Scalable Composite Optimization for Learning
第七期 自动驾驶专场
1. 北京大学查红彬:基于数据流处理的SLAM技术
2. 清华大学邓志东:自动驾驶的“感”与“知” - 挑战与机遇
3. 百度朱帆:开放时代的自动驾驶 - 百度Apollo计划
4. 北理宋文杰:时空域下智能车辆未知区域自主导航技术
第八期 深度学习专场
1. 中科院文新:深度学习入门基础与学习资源
2. 中科院陈智能:计算机视觉经典——深度学习与目标检测
3. 中科院付鹏:深度学习与机器阅读
第九期 个性化内容推荐专场
1. 人民大学赵鑫:基于知识与推理的序列化推荐技术研究
2. 中科院赵军:知识图谱关键技术及其在推荐系统中的应用
第十期 视频理解与推荐专场
1. 北京大学袁晓如:智能数据可视分析
留言点赞关注
我们一起分享AI学习与发展的干货
如转载,请后台留言,遵守转载规范