深度学习大讲堂 2018-07-24
百度深度学习框架PaddlePaddle自2016年开源以来,受到了业界的广泛关注,已经成为全球发展热度增速最高的开源深度学习平台,PaddlePaddle社区更是汇集了一大批AI技术开发者。开源的模式使PaddlePaddle在近两年取得了快速发展和升级,2017年11月百度发布了更细粒度的新一代深度学习框架——PaddlePaddleFluid,今年7月发布了PaddlePaddle3.0,这些相继印证了百度在深度学习领域的雄厚实力。
实际上,无人车、智能家电、AI云、AlphaGo等常见的AI应用领域,都离不开深度学习框架的训练和预测服务,深度学习框架则相当于AI时代的操作系统,在AI领域扮演者至关重要的角色。本次大会中,深度学习框架PaddlePaddle备受开发者们的关注,深度学习前沿技术与工业应用公开课分论坛现场座无虚席,开发者们挤爆全场,不少参会者甚至坐在地上听完全部课程。
为满足现场观众对前沿技术的渴求,本次公开课在每轮演讲结束后特意设置了多轮问答环节,与会嘉宾积极踊跃地提问,涉及到实操性的问题时更是连翻追问,百度的专家讲师团纷纷给出了耐心详细的解答,会后参会者们纷纷表示受益颇丰。
本次公开课的课程内容涉及到深度学习领域的方方面面,包括深度学习的语义计算技术,百度视觉技术、OCR迁移至Paddle-Fluid版本的工程实例,PaddlePaddle的新特性,大规模稀疏数据分布式模型训练,移动端深度学习技术及应用实践,深度学习预测引擎Anakin的优化,以及深度学习的可视化等,小编梳理了本届开发者大会中百度专家讲师们的最新研究及实践成果,让我们一睹为快吧。
深度学习公开课现场的一角:坐在地上的小伙伴们
百度自主研发的深度学习框架PaddlePaddle
基于深度学习的语义计算技术
百度产品中常见的语义匹配场景包括百度搜索、百度Feed流以及百度拍照搜索等,分别实现问题与答案匹配、用户与新闻匹配、图片与文本匹配的效果。
语义匹配模型包括输入层、表示层、匹配层和匹配得分四层。
其中表示层需要完成输入数据转化为数值向量的过程。
匹配层需要完成两个向量融合并产生打分的过程,表示层和匹配层都可以是一个深度神经网络。
上图是百度常见的训练模型,百度拥有海量的用户行为日志,包括点击行为和非点击行为,这些行为通常暗示一种语义关系,点击行为的语义更相关,因此要从海量的用户行为日志信息中挖掘样本,提取高质量弱标记数据,将语义相关的数据作为正例,语义不太相关的数据作为负例,Query和正例的打分比Query和负例的打分大,使