quanjingvr 2019-11-03
2019年10月27日下午,“AI未来说·青年学术论坛”第十期视频理解与推荐专场,在中国科学院大学中关村校区3号教学楼第二层S201教室举行。
AI未来说活动现场
“AI未来说·青年学术论坛”系列讲座由中国科学院大学主办,百度全力支持,读芯术、PaperWeekly作为合作自媒体。承办单位为中国科学院大学学生会,协办单位为中国科学院计算所研究生会、中科院计算机网络信息中心研究生会、人工智能学院学生会、化学工程学院学生会、公共政策与管理学院学生会、微电子学院学生会、数学与系统科学研究院研究生会。
据《2018中国网络视听发展研究报告》显示,截至2018年6月,我国手机视频用户数量达到5.78亿,短视频用户5.94亿,直播用户4.25亿,音频用户3.0亿,互联网电视用户2.18亿。从信息方面来看,视频是图像、声音、文字的综合载体,而且又具有了时间连续性,它更加贴近人类对于真实世界的认知。随着信息技术的发展,视频将成为最主要的信息传播方式,广泛应用与人际交流、社会生活、工业生产的各个方面。面对于海量的视频内容,仅靠人工处理是无法完成的,因此迫切需要通过计算机技术实现对于视频内容的智能化理解,实现自动化、智能化的视频内容生产、处理和分发,这也将是未来技术发展的下一个大风口。
袁晓如老师作“智能数据可视分析”的报
北京大学信息科学与技术学院的袁晓如老师作了智能数据可视分析的报告。他担任机器感知与智能教育部重点实验室副主任和大数据分析与应用国家工程实验室常务副主任,长期致力于可视化与可视分析通用基础方法与领域应用系统的研究,领导了一支具有国际知名度的可视化研究队伍。袁晓如老师在报告中通过回顾可视化的发展历史,指出可视化是基于计算机的可视化系统通过提供对数据的视觉表达形式来帮助人们更有效地完成特定任务的过程。可视化可以更好帮助人们对事物建立心理模型或者心理图像。报告中,袁晓如老师对未来可视化发展趋势的开展了讨论,指出可视化研究需要发展面向更复杂数据的新颖方法;提高可视化的开发便捷性的可视化;提升用户使用可视化的便捷性;与创意和美的进一步结合。袁晓如老师指出,人和机器各有所长。计算机在数据存储和数值计算远超人类,技术的发展,使得机器也初步具有分析、预测能力;而人类在复杂事物认知、常识和创意的能力机器尚无法实现。通过设计好的可视化作为界面,把人和机器结合起来,可以大大提高人类的知识认知能力。大数据、人工智能和计算能力是计算机科学拉动社会前进的三架马车,可视化可以帮助人类更好第驾驭计算和数据。
刘经拓老师作“视频基础技术探索及应用
作为业界视觉技术专家、百度视觉技术部主任架构师,刘经拓老师报告的主要内容包括互联网视频基础技术研究以及应用概述、视频分类算法以及视频生成算法三个部分。首先,刘经拓老师介绍了百度视频技术应用场景,包括长视频(爱奇艺)、短视频(手机百度资讯流和好看APP)和微视频(全民小视频)。在引入应用场景以后,介绍了互联网基础视频AI技术:1)视频理解;2)视频编辑;3)算力优化。接着,详细介绍了视频理解中的视频分类技术,列举了四类经典的视频分类优化算法:1)多模态信息融合;2)多帧时序信息优化;3)关键帧采样分析;4)大规模视频分类。此外,还结合百度飞桨(PADDLEPADDLE),详细介绍了大规模视频训练的构建流程。随后,详细介绍了视频编辑中的视频生成技术。借助百度视频编辑Demo,介绍了基于GAN(GenerativeAdversarial Network)的视频编辑功能分析技术:1)Pixel2Pixel建模-Conditional GAN;2)训练框架U-Net,并介绍了其应用:1)黑白照片转彩色;2)人脸属性编辑;3)基于人体关键点约束的视频动作迁移;4)超分辨率重建。最后,介绍了Paddle GAN算法库,并对报告进行了总结。
陈国庆老师作“视频理解在百度推荐中的
作为百度杰出架构师,陈国庆老师报告的主要内容包括:1)视频理解技术在百度Feed视频推荐中的使用(包括短、小视频视频理解技术);2)质量特征在视频推荐中的应用;3)内容生成&增强技术在内容生产、视频质量提升方面的应用;4)视频指纹系统在C端内容去重以及B端作者权益方面的应用;5)产品创新。首先,陈国庆老师介绍了Feed内容模型,其组成分别为:1)内容质量;2)内容理解;3)内容生成;4)基础算法;5)视觉技术,Feed内容模型为Feed推荐系统服务,与产品创新和作者权益保护也有关系。接着,分别介绍了图文理解和视频理解的案例,重点介绍了视频理解的过程:长/短小视频→多模态视频理解→视频标签体系,并详细讲述了多模态视频分类和隐式语义这两种视频理解方法。随后,介绍了视频内容质量的评估要素(如清晰度、美观度是否有马赛克等),视频内容质量中常用的算法(如多模态色情模型、纹理分形度量、基于Markov矩阵的不变特征等),并介绍了内容质量的经典应用案例(解说视频识别和变形图片识别)。然后,借助案例介绍了内容生成&增强技术在内容生产、视频质量提升方面的应用,重点探讨了清晰度增强、图像修复、修音算法以及视频语音识别等内容增强场景,此外,还分享了智能剪辑在内容生成方面的应用。紧接着,介绍了视频指纹及其在作者权益保护中的应用。视频指纹算法可以分解为以下步骤:抽帧→提取图像/音频基础特征→向量索引→视频相似匹配。最后,从短视频带长视频、度小糊(智能机器人)以及人脸交互(千万级别人脸库)角度,对产品技术创新提出展望。
吴健民老师作“短视频分发技术”的报告
作为百度杰出架构师,吴健民老师报告的主要内容包括:1)推荐系统与信息过滤;2)推荐系统架构;3)短视频推荐特性;4)短视频推荐的核心问题及解决方案。首先,报告由信息过载与过滤引入,介绍在互联网海量的文本、图片和视频信息中过滤出需要的内容的重要性。接着,阐明了推荐系统做信息过滤的主要目标:给用户推荐创作者的优质内容,促进彼此互动。进一步介绍了推荐模型的组成部分:1)用户模型;2)内容召回;3)打分和排序;4)规则策略,各部分的核心目标是实现对海量内容的有效实时的过滤。随后,简要介绍了用户模型及召回常用的三种算法:1)Content Based;2)User/Item Based CF;3)Model Based。紧接着,介绍了短视频推荐的特性和挑战,特性主要包括:1)摘要满足度低;2)时长标签噪音低;3)用户、内容、作者间的互动更活跃。短视频推荐的挑战包括:1)内容冷启动难度更大;2)用户兴趣扩展与探索特征相对少;3)沉浸式体验要求更高准确性。最后,介绍了短视频推荐的4个关键问题: 1)多目标的平衡(分发、时长、互动);2)即时与长期收益;3)推荐与社交分发;4)用户体验与内容生态。针对上述问题,详细介绍了每个问题的解决方法。
吴永巍老师作“规模爆炸-推荐系统架构
作为百度杰出架构师,吴永巍老师报告的主要内容为在规模爆炸背景下,关于工业界推荐系统架构的趋势与挑战的五大话题:1)视频处理架构;2)超大型推荐架构的服务治理、高可用工程;3)推荐系统中数据架构的挑战和应对;4)实时系统技术;5)视频处理与推荐架构的新突破和新思路。首先,吴永巍老师先介绍了推荐系统的层次化架构,接着简述了工业界推荐系统架构的趋势与挑战,其趋势为:1)流量涨,加越来越多的矩阵产品;2)数据规模涨,同时特征越来越丰富,更新更快;3)算法和子系统的计算度持续增加;三种因素叠加,表现为规模爆炸。随后,介绍了百度的超大规模视频处理架构,该架构中台拥有海量数据存储管理、数据与计算调度、大规模算力优化管理等优点,能够处理海量视频及特征。接着,针对规模爆炸问题,介绍了Cloud Native的架构方案,该方案是基于微服务、全面PaaS化、全动态服务治理的。以春晚红包极端高QPS下,百度Feed高可用工程为例,阐述了混沌工程、韧性架构等机制。然后,介绍了推荐系统中数据架构面临的问题,不管是内容数据、用户特征数据,还是机器学习数据,都存在着数据规模大+数据种类多+数据更新多和快的特点。针对其关键的数据问题,主要介绍了适用于高QPS的只读+批量更新的存储的Cube架构,能够支持单机数百万QPS、数千万KPS,并有着极低的延迟,用于TB级别的超大DNN模型在线预测,Cube数据系统已经随着PaddlePaddle开源(链接:https://dwz.cn/KS0yiXo9)。并介绍了适用于实时读写的超大容量高性能在线存储的SNDB系统,支持PB级数据,结合推荐特性的业务定制,加上3DXPoint,Open ChannelSSD等新硬件的结合和定制,吞吐能力提升了10倍以上。随后,介绍了推荐系统中关键的实时计算系统,其核心系统包括:实时传输系统、流式计算系统、配合的数据存储系统。最后,介绍了更灵活的online+nearline的召回架构,与纯online相比,AB test实验显示,该架构效果和成本显著双收益,灵活性更高,开辟了推荐系统的新空间,能够兼顾推荐效果、算力规模、在线延迟等核心指标。此外,还对视频处理与推荐系统有关的新技术、新趋势、新架构介绍了百度已落地的技术突破,提出了新的展望。
大咖Panel说环节(从左至右依次为袁晓如老师、张伦老师、吴健民老师、吴永巍老师和陈国庆老师)
大咖Panel环节主要围绕着不断涌现的视频创作形式(例如电视剧、综艺、吃播)对当下视频技术有哪些挑战和应用,自动生成技术还会有哪些发展趋势,相比图文内容,视频在经济开销的突破点在哪些地方等问题展开了讨论。
“AI未来说·青年学术论坛”系列讲座以贯彻落实国家人工智能发展规划和推动我国人工智能技术水平进步为目标,通过邀请业界专家、青年学者和优秀学生介绍领域前沿技术成果和分享教学、科研和产业化经验,促进产、学、研结合,助力我国人工智能的蓬勃发展。
AI未来说*青年学术论坛
第一期 数据挖掘专场
1. 李国杰院士:理性认识人工智能的“头雁”作用
2. 百度熊辉教授:大数据智能化人才管理
3. 清华唐杰教授:网络表示学习理论及应用
4. 瑞莱智慧刘强博士:深度学习时代的个性化推荐
5. 清华柴成亮博士:基于人机协作的数据管理
第二期 自然语言处理专场
1. 中科院张家俊:面向自然语言生成的同步双向推断模型
2. 北邮李蕾:关于自动文本摘要的分析与讨论
3. 百度孙珂:对话技术的产业化应用与问题探讨
4. 阿里谭继伟:基于序列到序列模型的文本摘要及淘宝的实践
5. 哈工大刘一佳:通过句法分析看上下文相关词向量
第三期 计算机视觉专场
1. 北大彭宇新:跨媒体智能分析与应用
2. 清华鲁继文:深度强化学习与视觉内容理解
3. 百度李颖超:百度增强现实技术及应⽤
4. 中科院张士峰:基于深度学习的通用物体检测算法对比探索
5. 港中文李弘扬 :物体检测最新进展
第四期 语音技术专场
1. 中科院陶建华:语音技术现状与未来
2. 清华大学吴及:音频信号的深度学习处理方法
3. 小米王育军:小爱背后的小米语音技术
4. 百度康永国:AI 时代的百度语音技术
5. 中科院刘斌:基于联合对抗增强训练的鲁棒性端到端语音识别
第五期 量子计算专场
1. 清华大学翟荟:Discovering Quantum Mechanics with Machine Learning
2. 南方科技大学鲁大为:量子计算与人工智能的碰撞
3. 荷兰国家数学和计算机科学中心(CWI)李绎楠:大数据时代下的量子计算
4. 苏黎世联邦理工学院(ETH)杨宇翔:量子精密测量
5. 百度段润尧:量子架构——机遇与挑战
第六期 机器学习专场
1. 中科院张文生:健康医疗大数据时代的认知计算
2. 中科院庄福振:基于知识共享的机器学习算法研究及应用
3. 百度胡晓光:飞桨(PaddlePaddle)核心技术与应用实践
4. 清华大学王奕森:Adversarial Machine Learning: Attack and Defence
5. 南京大学赵申宜:SCOPE - Scalable Composite Optimization for Learning
第七期 自动驾驶专场
1. 北京大学查红彬:基于数据流处理的SLAM技术
2. 清华大学邓志东:自动驾驶的“感”与“知” - 挑战与机遇
3. 百度朱帆:开放时代的自动驾驶 - 百度Apollo计划
4. 北理宋文杰:时空域下智能车辆未知区域自主导航技术
第八期 深度学习专场
1. 中科院文新:深度学习入门基础与学习资源
2. 中科院陈智能:计算机视觉经典——深度学习与目标检测
3. 中科院付鹏:深度学习与机器阅读
第九期 个性化内容推荐专场
1. 人民大学赵鑫:基于知识与推理的序列化推荐技术研究
2. 中科院赵军:知识图谱关键技术及其在推荐系统中的应用
推荐阅读专题
留言 点赞 关注
我们一起分享AI学习与发展的干货
如需转载,请后台留言,遵守转载规范