百度冯知凡：基于知识图谱的多模认知技术及智能应用

不到现场，照样看最干货的学术报告！

嗨，大家好。这里是学术报告专栏，读芯术小编不定期挑选并亲自跑会，为大家奉献科技领域最优秀的学术报告，为同学们记录报告干货，并想方设法搞到一手的PPT和现场视频——足够干货，足够新鲜！话不多说，快快看过来，希望这些优秀的青年学者、专家杰青的学术报告，能让您在业余时间的知识阅读更有价值。

人工智能论坛如今浩如烟海，有硬货、有干货的讲座却百里挑一。“AI未来说·青年学术论坛”系列讲座由中国科学院大学主办，承办单位为中国科学院大学学生会，协办单位为中国科学院计算所研究生会、网络中心研究生会、人工智能学院学生会、化学工程学院学生会、公共政策与管理学院学生会、微电子学院学生会，百度为支持单位，读芯术、PaperWeekly为合作自媒体。“AI未来说·青年学术论坛”第十一期“信息检索与知识图谱”专场已于2019年11月24日下午在中科院举行。百度冯知凡为大家带来报告《基于知识图谱的多模认知技术及智能应用》。

冯知凡，现任百度知识图谱部主任架构师。2011年至2013年任职于百度互联网数据研发部，曾负责百度网页搜索内容价值、视频及图片的场景化推荐。2013年至今，任职于百度知识图谱部，参与了百度知识图谱设计及构建的整体流程，具有丰富的知识图谱实践经验，并主要负责Query理解、知识融合、知识消歧、知识图谱文本理解、知识表示学习、知识图谱多模态认知等技术。

报告内容：知识图谱在人工智能应用中的重要价值日益突显。基于海量互联网资源，百度构建了超大规模的通用知识图谱，并在搜索、推荐、智能交互等多项产品中广泛应用。同时，随着文本、语音、视觉等智能技术的不断深入，知识图谱在复杂知识表示、多模语义理解技术与应用等方面都面临新的挑战与机遇。本报告将重点介绍百度基于知识图谱的多模语义理解技术及应用的最新进展。

百度冯知凡：基于知识图谱的多模认知技术及智能应用

基于知识图谱的多模认知技术及智能应用

百度冯知凡：基于知识图谱的多模认知技术及智能应用

冯知凡老师首先介绍了相关背景，如为何用知识图谱理解视频，从单模态文本，过度到视频多模态的历程。随着4G、5G等技术的发展，视频等多模态内容成为非常重要的信息媒介，而对于百度公司，有很多视频类的产品，比如说视频搜索、信息流推荐、好看视频等，如何理解这些数十亿视频，是支撑这些视频相关产品的关键技术。

知识图谱自2012年提出至今，发展迅速，如今已经成为人工智能领域的热门问题之一，吸引了来自学术界和工业界的广泛关注，在一系列实际应用中取得了较好的落地效果，产生了巨大的社会与经济效益。比如智能客服系统已经在很多行业大规模应用，大大降低了人工客服的巨大劳动力成本；网感的智能数据治理系统TML SmartData对企业内部生成数据和外部销售数据进行自动对齐，补全，统计，及时生成业务报表以供决策。智能化的升级和转型对整个传统行业产生的影响将是颠覆性的。前几年在深度学习的推动下，机器感知能力显著提升。但以深度学习为代表的统计学习严重依赖大样本，这些方法只能习得数据中的统计模式。然而，现实世界很多实际问题的解决单单依靠统计模式是不够的，还需要知识，特别是符号化的知识。人类的语言理解、司法判案、医疗诊断、投资决策等等很多领域都是显著依赖知识才能实现的。而知识图谱就是这种不可或缺的知识的重要表现形式之一。

而机器认知智能的发展过程本质上是人类脑力不断解放的过程。认知智能的第一个应用就是大数据的精准与精细分析。越来越多的行业或者企业积累了规模可观的大数据，但是很多时候这些数据非但没有创造价值，还成为了一笔负资产。这一现象的根本原因在于，当前的机器缺乏诸如知识图谱这样的背景知识，机器理解大数据的手段有限，限制了大数据的精准与精细分析，从而大大降低了大数据的潜在价值。网感的智能数据治理系统TML SmartData可以自动识别相似字段。认知智能的第二个非常重要的应用是智慧搜索。下一代智慧搜索对机器认知智能提出了需求。智慧搜索体现在很多方面。首先，体现在搜索意图的精准理解方面。比如现在的百度已经具备了智能搜索功能。其次，搜索的对象越来越复杂多元化。以前搜索的对象以文本为主，现在大家希望能搜索图片和声音，甚至还能搜代码，搜视频，搜设计素材等等，要求一切皆可搜索。第三、搜索的粒度也越来越多元化。现在的搜索不仅能做篇章级的搜索，还希望能做到段落级、语句级、词汇级的搜索。尤其是在传统知识管理领域，这个趋势已经非常明显。第三个应用是智能推荐。智能推荐表现在很多方面。有场景化推荐、任务型推荐、冷启动下的推荐等。冷启动阶段的推荐一直是传统基于统计行为的推荐方法，难以有效解决的问题。利用外部知识，特别是关于用户与物品的知识指引冷启动阶段的匹配与推荐，是有可能让系统尽快渡过这个阶段的。再如跨领域的推荐，实现这种跨领域推荐显然商业价值巨大，但却需要跨越巨大的语义鸿沟。

冯知凡老师认为如果能有效利用知识图谱这类背景知识，不同平台之间的这种语义鸿沟是有可能被跨越的。知识推荐将显著增强用户对于推荐内容的信任与接受程度。消费背后的内容与知识需求将成为推荐的重要考虑因素。所以未来的推荐趋势就是精准感知任务与场景，想用户之未想。基于知识的推荐，将逐步成为未来推荐技术的主流。认知智能还有一个应用是智能解释。这体现了人们的一个普遍诉求，那就是希望智能系统具备可解释性。可解释性决定了AI系统的决策结果能否被人类采信。可解释性成为了很多领域（金融、医疗、司法等）中阻碍AI系统落地应用的最后一公里。比如在金融领域的智能投资决策，即便AI决策的准确超过90%，但是如果系统不能给出作出决策的理由，投资经理或者用户恐怕也是十分犹豫的。智能系统的可解释性体现在很多具体任务中，包括解释过程、解释结果、解释关系、解释事实。事实上，可解释人工智能最近受到了越来越多的关注。在学术界，机器学习，特别是深度学习的黑盒特性，日益成为学习模型实际应用的主要障碍之一。智能系统的一个非常重要的表现方式就是自然人机交互。越自然简单的人机交互方式越依赖强大的机器智能水平。自然人机交互包括自然语言问答、对话、体感交互、表情交互等等。特别是自然语言交互的实现需要机器能够理解人类的自然语言。除此之外，认知智能还体现在机器的深层关系发现与推理能力方面。

以知识图谱为代表的这一波知识工程的一系列技术，在认知智能的实现中起到非常关键的作用。从2012年Google提出知识图谱直到今天，知识图谱技术发展迅速，知识图谱的内涵远远超越了其作为语义网络的狭义内涵。当下，在更多实际场合下，知识图谱是作为一种技术体系，指代大数据时代知识工程的一系列代表性技术进展的总和。知识图谱是一种大规模语义网络，与上世纪七八十年代的各类语义网络相比较，最显著的差异就是规模差异。推而广之，以知识图谱为代表的大数据时代的各种知识表示与传统的知识表示的根本差别首先体现在规模上。传统知识工程一系列知识表示都是一种典型的“小知识”。而到了大数据时代，受益于海量数据、强大计算能力以及群智计算，我们如今能够自动化构建、或者众包构建大规模、高质量知识库，形成所谓的“大知识”。所以知识图谱与传统知识表示在浅层次上的区别，就是大知识与小知识的差别，是在规模上的显而易见的差别。

随后冯知凡老师提到，知识图谱对于认知智能的另一个重要意义在于：知识图谱让可解释人工智能成为可能。“解释”这件事情一定是跟符号化知识图谱密切相关的。因为解释的对象是人，人只能理解符号，没办法理解数值，所以一定要利用符号知识开展可解释人工智能的研究。可解释性是不能回避符号知识的。我们目前的互联网推荐，只能给我们推荐结果，却无法解释为什么。可解释推荐将是未来推荐研究的重要领域，将是具有巨大商业价值的研究课题。此外，另一个重要作用体现在知识引导将成为解决问题的主要方式。用户对使用统计模型来解决问题的效果越来越不满意了，统计模型的效果已经接近“天花板”，要想突破这个“天花板”，需要知识引导。很多任务是纯粹的基于数据驱动的模型所解决不了的，知识在很多任务里不可或缺。比较务实的做法是将这两类方法深度融合。还有其显著增强机器学习的能力。机器智能的实现路径之一是习得数据中的统计模式，以解决一系列实际任务。另一种是专家系统，专家将知识赋予机器构建专家系统，让机器利用专家知识解决实际问题。如今，这两种方法有合流的趋势，无论是专家知识还是通过学习模型习得的知识，都将显式地表达并且沉淀到知识库中。再利用知识增强的机器学习模型解决实际问题。这种知识增强下的学习模型，可以显著降低机器学习模型对于大样本的依赖，提高学习的经济性；提高机器学习模型对先验知识的利用率；提升机器学习模型的决策结果与先验知识的一致性。

我们希望通过知识图谱获得用户、文本、资源和视频、图片这样的资源，从知识的维度，做知识计算、语义分析，从而提供上层智能应用需要的语义计算和推理的能力。相对传统的理解，它有这样几个优点，第一它能够实现深度的语义理解，能够实现视频背后的知识，第二它能够基于知识图谱进行计算与推理。我们的技术全景底层是知识图谱，还有一些感知技术，上面是一些应用技术，今天我重点介绍文本和视频两个技术。当然还有一些跨媒体的生成，视觉问答技术，这样的技术支撑了百度大部分的产品，比如说搜索、内容对话和行业应用等应用。

传统的文本语义理解主要是做纠错、情感分析和关联分析，知识图谱语义理解会从实体概念关系对文本做全方位解析，提供上述需要的语义理解，我们首先会标注实体，同时对实体和关系做知识图谱，把这个实体概念化，比如说李娜唱青藏高原中，李白是一个歌手。同时我们也可以理解实体和实体之间的关系，这样的话，我们可以通过实体的概念及关系，理解这段文本。同时，对于知识化的推断而言，可解释性是非常关键的技术，而基于知识图谱的文本语义理解，则能够为可解释性提供可能。

百度冯知凡：基于知识图谱的多模认知技术及智能应用

当时，基于知识图谱的文本语义理解在实际工作中也蕴含着各种挑战，第一是多种文本形态，上下文关系会非常稀疏，这样会导致歧义的问题加剧，使我们理解更加困难。第二就是对于新实体的理解，若对很多新实体不理解，文本理解会出现困难。第三就是不同的业务场景，在不同的业务场景下，会有各种各样的输入和不同的理解需求。我们的解决方案是增强业务语义理解的方式，提升业务场景的理解。接下来，我们介绍其中几块关键的技术，首先是实体标注，对文本里出现的实体进行消除歧义，并关联到知识库，这样我们通过利用知识库的信息，就可以进行文本进行理解。实体标注的技术思路是这样的，先进行候选实体生成，这里比较关键的是新实体识别，我们用两种方式，第一就是训练样本维度，我们会基于远监督技术生成大量的训练样本；对于上下文稀疏的问题，我们会引入外部知识库解决这样的问题；然后，对候选实体进行排序，我们通过引入百度强大的预训练模型ERNIE及联合知识表示学习，利用外部知识来增强排序的效果；最后，对实体排序打分最高结果，我们会进行关联决策，去判断这个结果是否正确，这里我们主要是通过引入膨胀门卷积来扩大整个神经网络的感受野，考虑到性能问题，并没有使用非常复杂的神经网络结构。因为实际的工作中发现，性能对实体标注应用是一个很大的制约因素。当然，我们现在也使用Transformer-XL这类强大的特征抽取器来提升性能与效果。另外一个关键技术就是概念化，相对传统的实体分类，概念化要解决的问题需要结合上下文的知识，赋予这个实体在当前上下文的概念。有了更细粒度的概念，能够理解文本背后的概念知识。

最后，冯知凡老师通过视频理解的实际例子，生动地介绍了为什么要基于知识图谱进行视频语义理解，以及这样做的优势与技术挑战，并整体介绍了百度知识图谱部对视频进行深度语义理解的完整技术框架。其中，重点介绍了视频理解图谱及图谱构建的关键技术、基于多模融合与计算推理的实体理解、场景推断技术。最后，通过实例演示了基于知识图谱的视频语义理解在诸多产品的应用效果。

比如视频理解图谱，这是百度提出的以视频理解为目标的图谱，其区别于传统图谱，提升视频语义理解所需的知识，会差异化的构建各种不同类型的知识。同时，冯知凡老师也介绍了在视频理解图谱构建中的一些核心技术。

最后，从文本和视频的不同模态的语义理解问题进行了总结，阐述了知识图谱在其中发挥的作用以及关键的技术，并对未来发展进行了展望。

百度冯知凡：基于知识图谱的多模认知技术及智能应用

AI未来说*青年学术论坛

第一期数据挖掘专场

1. 李国杰院士：理性认识人工智能的“头雁”作用

2. 百度熊辉教授：大数据智能化人才管理

3. 清华唐杰教授：网络表示学习理论及应用

4. 瑞莱智慧刘强博士：深度学习时代的个性化推荐

5. 清华柴成亮博士：基于人机协作的数据管理

第二期自然语言处理专场

1. 中科院张家俊：面向自然语言生成的同步双向推断模型

2. 北邮李蕾：关于自动文本摘要的分析与讨论

3. 百度孙珂：对话技术的产业化应用与问题探讨

4. 阿里谭继伟：基于序列到序列模型的文本摘要及淘宝的实践

5. 哈工大刘一佳：通过句法分析看上下文相关词向量

第三期计算机视觉专场

1. 北大彭宇新：跨媒体智能分析与应用

2. 清华鲁继文：深度强化学习与视觉内容理解

3. 百度李颖超：百度增强现实技术及应⽤

4. 中科院张士峰：基于深度学习的通用物体检测算法对比探索

5. 港中文李弘扬：物体检测最新进展

第四期语音技术专场

1. 中科院陶建华：语音技术现状与未来

2. 清华大学吴及：音频信号的深度学习处理方法

3. 小米王育军：小爱背后的小米语音技术

4. 百度康永国：AI 时代的百度语音技术

5. 中科院刘斌：基于联合对抗增强训练的鲁棒性端到端语音识别

第五期量子计算专场

1. 清华大学翟荟：Discovering Quantum Mechanics with Machine Learning

2. 南方科技大学鲁大为：量子计算与人工智能的碰撞

3. 荷兰国家数学和计算机科学中心（CWI）李绎楠：大数据时代下的量子计算

4. 苏黎世联邦理工学院（ETH）杨宇翔：量子精密测量

5. 百度段润尧：量子架构——机遇与挑战

第六期机器学习专场

1. 中科院张文生：健康医疗大数据时代的认知计算

2. 中科院庄福振：基于知识共享的机器学习算法研究及应用

3. 百度胡晓光：飞桨（PaddlePaddle）核心技术与应用实践

4. 清华大学王奕森：Adversarial Machine Learning: Attack and Defence

5. 南京大学赵申宜：SCOPE - Scalable Composite Optimization for Learning

第七期自动驾驶专场

1. 北京大学查红彬：基于数据流处理的SLAM技术

2. 清华大学邓志东：自动驾驶的“感”与“知” - 挑战与机遇

3. 百度朱帆：开放时代的自动驾驶 - 百度Apollo计划

4. 北理宋文杰：时空域下智能车辆未知区域自主导航技术

第八期深度学习专场

1. 中科院文新：深度学习入门基础与学习资源

2. 中科院陈智能：计算机视觉经典——深度学习与目标检测

3. 中科院付鹏：深度学习与机器阅读

第九期个性化内容推荐专场

1. 人民大学赵鑫：基于知识与推理的序列化推荐技术研究

2. 中科院赵军：知识图谱关键技术及其在推荐系统中的应用

第十期视频理解与推荐专场

1. 北京大学袁晓如：智能数据可视分析

百度冯知凡：基于知识图谱的多模认知技术及智能应用

留言点赞关注

我们一起分享AI学习与发展的干货

如转载，请后台留言，遵守转载规范

百度冯知凡：基于知识图谱的多模认知技术及智能应用

相关推荐