TensorFlowNews 2018-06-25
机器学习(ML)如今受到了人们的广泛关注。网上出现了很多信息:理论的解释、组成用例、GitHub项目等等。但都太过于基础或者太过于理论。
作者对人工智能非常感兴趣,想了解人工智能在生活中的用例。作者认为这会让人们更加了解现在ML在生活中的应用程度。
分类
机器学习是电脑处理数据和执行类似人类任务的一种方式。数据是这个过程中最重要的部分。这就是作者选择数据类型作为分类的核心要素的原因。
存在5种主要的数据类型:图像、视频、文本、音频、原始数据,在这些数据类型中,机器表现的很出色,有时甚至超过人类。
图像
图像是人类历史上的一个重要组成部分:黑白照片、用宝丽来相机或双镜头智能手机拍摄的照片。这些图像保存了了大量的数据。图像是机器理解世界的好方法,它是计算机视觉领域的一部分。那么,现今图像处理的实际用途是什么呢?
1.分类:从图像中收集信息。谷歌会在谷歌照片和谷歌图片中使用它,Yelp则将其用于对当地企业的标签和分类。
2.物体和人的识别:识别图像上的对象或人物。
3.面部识别:最著名的是Facebook面部识别。
4.图像生成:根据所看到图像的历史记录创建一幅新图像。 Deep Dream是一个很好的例子,如果你还没有使用过它可以去试用一下:https://deepdreamgenerator.com/。
5.图像处理或增强:还记得所有那些在电影中无限放大的模因吗?它比你想象中的更接近你:https://letsenhance.io。Google Brain也使用在图像处理。另一个用例:基于算法的颜色恢复(https://demos.algorithmia.com/colorize-photos/)。
6.字符识别:例如:谷歌翻译。
7.分析:Adobe Sensei、https://www.adobe.com/sensei.html - 伪造(改变的)图像检测。
视频
抛去动态的部分,这种类型的视频的数据非常接近图像。所有的处理算法,如分析、物体检测、面部识别也被广泛应用。产品和服务:https://www.boulderai.com/,https://www.camio.com/
1.对象跟踪: DJI无人机采用ActiveTrack技术进行操作,这使得他们在飞行时可以跟随人或物体。https://www.dji.com/products/drones
文本
在现实世界中,我们通过文本进行交流(至少目前是这样,直到Neuralin为我们提供一些其他的交流接口)。理解文本对于机器来说是一个艰巨的任务。ML为文本处理打开了全新的可能性。
1.对意义的理解:主要用于搜索引擎(Google是最好的例子)。像Apple的Siri、亚马逊的Alexa或Google Now等个人助理现在都在利用ML的强大功能。询问它天气等问题,你就会得到答案。
2.一般处理: Google翻译将其用于语言检测和翻译。Turnitin(http://turnitin.com/)支持论文查重。
3.文本生成:例如: BMW Dragon 驱动、消息系统、 Vphrase(https://www.vphrase.com/)报告平台等。
音频
1.语音文本:目前,大多数服务都能使用从语音到文本的转换,然后继续处理文本。"Ok Google"就是一个例子。百度搜索也正在使用基于语音的搜索和应用程序。还有Google Duplex(自动拨打电话)。
2.分析:Pindrop(https://www.pindrop.com)用于识别欺诈活动的语音通话分析。
3.处理:来自iZotope的Neutron 2混合器(https://www.izotope.com/en/products/mix/neutron.html)。
原始数据
原始数据是应用最广泛的部分,它依赖于特定数据的处理。例如我们讨论一个大数据,它的数量庞大,人们无法理解如此大量且泛化信息,无法概括它。 而ML可以发现它的相似点、趋势和异常处。
原始数据的用例很多: Google地图 ——路段查询;UberEATS——预计送餐时间;Netflix——视频推荐;Spotify——音乐推荐;Instagram——关注者和关系网;Qubit Aura和亚马逊——购物推荐;LinkedIn——人际关系;Gmail——垃圾邮件检测;PayPal——预防欺诈;Facebook ——推荐你可能认识的人;Salesforce Einstein——商业数据预测;Twitter——推荐博客;SAP(https://www.sap.com)——IOT的预测和维护。
复杂的行为
处理各种数据的经验使我们能够向前迈进。我们可以结合处理不同数据集的结果,得到一个复杂的行为。比如说,特斯拉的自动驾驶系统引擎、Waymo开发的自动驾驶汽车、BostonDynnamics的机器人。
API
刚才的举例都经过了大量的验证。只需使用可用的API,你便不需要另外开发就可以在你的项目中直接使用它们。
Google的Cloud Vision API提供了播放图片的功能:https://cloud.google.com/vision/。 IBM提供了Watson:https://www.ibm.com/watson/products-services/。 Microsoft Azure服务:https://azure.microsoft.com/en-us/overview/ai-platform/。如果你使用的是自然语言,则可以使用https://wit.ai/上的Wit.Ai。还有一个用于机器学习的亚马逊AWS服务:https://aws.amazon.com/machine-learning/。
ML并没有停滞不前,在不久的将来它会提供给我们更多的可能性。比如:由NVIDIA完成的慢镜头视频生成(https://news.developer.nvidia.com/transforming-standard-video-into-slow-motion-with-ai/)