无风而起 2018-06-16
新智元 今天
新智元报道
来源:medium.mybridge.co
编辑:肖琴
【新智元导读】在6月的1400多篇机器学习相关的文章/项目中,Mybridge甄选了10篇最热文章(入选率0.7%)。主题包括:Google Duplex,网格单元,神经网络,TensorFlow,Keras,第一名解决方案,CVPR 2018等。
在 5 月的 1400 多篇机器学习相关的文章 / 项目中,Mybridge 甄选了 10 篇最热文章(入选率 0.7%)。
此列表中的主题:Google Duplex,网格单元,神经网络,TensorFlow,Keras,第一名解决方案,CVPR 2018 等。
Top 10 文章由 Mybridge AI 选出,综合考虑文章分享数量、阅读时间等,并使用机器学习算法对文章进行排序。相信这些文章分享的机器学习经验和技巧是有用的。
1. Google Duplex:一个通过电话完成真实世界任务的 AI 系统
5 月份最受关注的是谷歌在 I/O 大会演示的 Google Assistant 的新功能——Duplex 双工技术。
利用 Duplex 双工技术,谷歌的智能助理能用非常类似人声的角色完成真实世界的任务。在 demo 中,谷歌 CEO Pichai 告诉听众,“你将要听到的是,谷歌的助理实际地打电话给一家真实的美容院,为你安排一个预约。” 当然,智能助理几乎毫无破绽地完成了任务。虽然后来这个演示是否真实受到一些质疑,但这一技术引发了业界热议。
在这篇文章中,谷歌首席工程师 Yaniv Leviathan 和工程副总裁 Yossi Matias 详细介绍了 Google Duplex 使用到的技术,包括:
https://ai.googleblog.com/2018/05/duplex-ai-system-for-natural-conversation.html
2. “换脸术”Deep Video Portraits
Deep Video Portraits 是斯坦福大学、慕尼黑技术大学等的研究人员提交给今年 8 月SIGGRAPH 大会的一篇论文,描述了一种经过改进的 “换脸” 技术,可以在视频中用一个人的脸再现另一人脸部的动作、面部表情和说话口型。
例如,将普通人的脸换成奥巴马的脸。Deep Video Portraits 可以通过一段目标人物的视频(在这里就是奥巴马),来学习构成脸部、眉毛、嘴角和背景等的要素以及它们的运动形式。
论文地址:https://arxiv.org/abs/1805.11714
3. 在人工智能体中使用网格表示进行导航
虽然 AI 在围棋等许多任务超过了人类,空间导航能力对于人工智能体来说仍然是一个巨大的挑战。DeepMind 在 Nature 上发表的一篇论文引起 AI 领域和神经科学领域的极大震撼:AI 展现出与人脑 “网格细胞” 高度一致的空间导航能力。
通过一系列实验操作,研究人员发现网格单元对于基于矢量的导航至关重要。例如,当网络中的网格单元被掐断时,agent 的导航能力就会受损,而且对目标的距离和方向的判断等关键指标的表示变得不那么准确。这项发现有助于 AI 可解释性的研究。
地址:https://deepmind.com/blog/grid-cells
4. 如何用 Python 从头开始构建一个神经网络
这是一个入门教程,初学者可以从这个教程开始,了解深度学习的内部运作。
神经网络是什么呢?许多介绍性文章会将其与大脑进行类比,但如果抛开神经网络和人脑的类比,将其描述为一个给定的输入和一个期望的输出之间的映射的数学函数,会更好理解。
神经网络包含以下元素:
图:一个 2 层神经网络的架构
地址:https://towardsdatascience.com/how-to-build-your-own-neural-network-from-scratch-in-python-68998a08e4f6
5. 对 Airbnb 上的照片进行分类
Airbnb 为数百万的民宿提供了一个平台,也因此获得了一大批民宿的房间细节照片和用户数据。在这个任务中,Airbnb 的数据团队利用计算机视觉和深度学习对民宿房屋照片进行分类。
其目的一方面是将具有相似风格的房源聚集到一起,方便用户浏览。另一方面,分类也可以帮助验证房间数量和房屋信息的准确性。该团队表示,利用这些图片数据,还将发掘出更多潜在的信息。
地址:https://medium.com/airbnb-engineering/categorizing-listing-photos-at-airbnb-f9483f3ab7e3
6. Loc2Vec:用 triplet-loss 网络学习位置嵌入
这是一个以智能手机的传感器数据作为输入,例如加速度计、陀螺仪和位置信息,并从中提取行为洞察的平台,用于了解用户的模式,并能够预测和解释事情发生的原因。
这个平台的一个重要组成部分是场地映射算法(venue mapping algorithm)。venue mapper 的目标是弄清楚你要访问的地点。
地址:http://www.sentiance.com/2018/05/03/loc2vec-le
7. 在浏览器中使用 TensorFlow.js 进行实时人体姿态估计
这是来自 TensorFlow 博客的教程,与谷歌创意实验室合作,发布了 TensorFlow.js 版本的 PoseNet。PoseNet 是一个机器学习模型,可以在浏览器中实时估计人体姿态。
PoseNet 可以利用单姿态或多姿态算法检测图像和视频中的人物,所有这些都可以在浏览器中实现。
PoseNet 的姿态估计分两个阶段进行:
PoseNet 返回检测到的每个人的置信度值以及检测到的每个姿势关键点。
https://medium.com/tensorflow/real-time-human-pose
8. 用 Keras 进行多标签分类
这是一个关于多标签分类的 Keras 教程,包括以下 4 个部分:
https://www.pyimagesearch.com/2018/05/07/multi-label-classification-with-keras
9. 谷歌地标检索挑战赛:第一名解决方案解读
四个月前,谷歌在 Kaggle 发布了一项地标检索挑战赛(Google Landmark Retrieval Challenge),参赛者被要求在所有图像数据集中检索到含有给定图像中地标的图片。
这篇文章是第一名团队的解决方案总结,包括两个主要部分:
以下是一个流程图,每一步都标记 LB 分数。
https://www.kaggle.com/c/landmark-retrieval-challe
10. 学会 “夜视”
这是伊利诺伊大学香槟分校(UIUC)和 Intel Labs 合作的论文,提出一个基于端到端训练的用全卷积网络进行低照度图像处理的模型。这个网络直接处理原始传感器数据,并且基本不使用传统的图像处理流程。
视频介绍:
论文地址:https://arxiv.org/abs/1805.01934
两个大型新数据集
伯克利大学发布大型驾驶视频数据集 BDD100K
伯克利大学发布了 BDD100K,这是目前为止最大规模也是最多样化的驾驶视频数据集。这些数据具有四个主要特征:大规模,多样化,在真实的街道采集,并带有时间信息。利用这个数据集,你还可以参加伯克利在 CVPR 2018 举办的自动驾驶竞赛。
地址:http://bair.berkeley.edu/blog/2018/05/30/bdd/
骨骼 X-ray 数据集
Andrew Ng 带领的斯坦福大学 ML 团队发布了一个目前为止最大规模的医学影像数据集 MURA(musculoskeletal radiographs),这个数据集包含 4 万多张多角度射线检测图像,来自对 12173 名病人的 14863 项研究,X 光影像包含人体上肢的 7 个部分:肘、指、小臂、手、肱、肩、腕。最近,该团队推出了基于此数据集的识别挑战赛:MURA 骨骼 X-ray 深度学习竞赛。
https://stanfordmlgroup.github.io/competitions/mura