cckchina 2017-12-07
近日,苹果通过机器学习期刊分享了最新的白皮书。文章内容关于“大规模隐私学习”(Learning with Privacy at Scale),并介绍了苹果正在使用差异化隐私的具体算法,通过一些特定用例(如发现流行的表情符号)来改进产品功能。
苹果的机器学习期刊,会是不是推出机器学习的文章。如Siri的演变,“嘿Siri”如何工作,面部检测等等。本篇是有关访问用户数据以改善产品平衡的细节,同时利用本地差异隐私保护用户信息。
苹果指出,它的系统是唯一的,透明的,没有数据记录或未在用户批准之前发送。
该文件详细介绍了苹果公司正在使用的系统架构以及其设计的算法,包括“Private Count Mean Sketch”,“Private Hadamard Count Mean Sketch”和“Private Sequence Fragment Puzzle”。
至于用例,苹果指出,它能够改善基于位置的预测表情符号QuickType建议。
鉴于表情符号在我们的用户群中的流行,我们要确定哪些特定的表情符号是我们客户最常使用的,以及这些字符的相对分布。为此,我们部署我们的算法来理解在键盘语言环境中使用的emojis的分布。对于这个用例,我们将CMS的参数设置为mm = 1024,kk = 65,536,εε= 4,字典大小为2600 emojis。
数据显示键盘区域设置的许多差异。在图中,我们观察了两个语言环境的快照:英文和法文。使用这些数据,我们可以改进我们的语言环境预测表情符号的QuickType。其他用例包括“识别Safari中的高能量和内存使用”和“发现新词”。
论文地址:
https://machinelearning.apple.com/docs/learning-with-privacy-at-scale/appledifferentialprivacysystem.pdf