苹果机器学习玩的很“亲民”,发现流行的表情符号!

cckchina 2017-12-07

近日,苹果通过机器学习期刊分享了最新的白皮书。文章内容关于“大规模隐私学习”(Learning with Privacy at Scale),并介绍了苹果正在使用差异化隐私的具体算法,通过一些特定用例(如发现流行的表情符号)来改进产品功能。

苹果的机器学习期刊,会是不是推出机器学习的文章。如Siri的演变,“嘿Siri”如何工作,面部检测等等。本篇是有关访问用户数据以改善产品平衡的细节,同时利用本地差异隐私保护用户信息。

苹果指出,它的系统是唯一的,透明的,没有数据记录或未在用户批准之前发送。

该文件详细介绍了苹果公司正在使用的系统架构以及其设计的算法,包括“Private Count Mean Sketch”,“Private Hadamard Count Mean Sketch”和“Private Sequence Fragment Puzzle”。

至于用例,苹果指出,它能够改善基于位置的预测表情符号QuickType建议。

鉴于表情符号在我们的用户群中的流行,我们要确定哪些特定的表情符号是我们客户最常使用的,以及这些字符的相对分布。为此,我们部署我们的算法来理解在键盘语言环境中使用的emojis的分布。对于这个用例,我们将CMS的参数设置为mm = 1024,kk = 65,536,εε= 4,字典大小为2600 emojis。

数据显示键盘区域设置的许多差异。在图中,我们观察了两个语言环境的快照:英文和法文。使用这些数据,我们可以改进我们的语言环境预测表情符号的QuickType。其他用例包括“识别Safari中的高能量和内存使用”和“发现新词”。

苹果机器学习玩的很“亲民”,发现流行的表情符号!

图1.系统概述

苹果机器学习玩的很“亲民”,发现流行的表情符号!

图2.私有化阶段

苹果机器学习玩的很“亲民”,发现流行的表情符号!

图3.具有私有化记录的示例报告

苹果机器学习玩的很“亲民”,发现流行的表情符号!

图4. Hadamard Count Mean Sketch的客户端算法

苹果机器学习玩的很“亲民”,发现流行的表情符号!

图5. Hadamard Count Mean Sketch的服务器端算法

苹果机器学习玩的很“亲民”,发现流行的表情符号!

图6.不同键盘语言环境中的Emojis。

论文地址:

https://machinelearning.apple.com/docs/learning-with-privacy-at-scale/appledifferentialprivacysystem.pdf

喜欢的朋友要记得转、赞、评!

相关推荐