savorTheFlavor 2018-10-28
许多机器学习问题依赖大量的数据进行训练,然后进行推理。大型互联网规模的公司用tb或pb的数据进行训练,并从中创建模型。这些模型由权重组成,这些权重将优化大多数情况下的推理误差。权重/参数的数量以数十亿至数万亿的顺序排列。在这样大的模型中,在一台机器上学习和推理都是不可能的。有一个可以用于分布式学习和推理的框架是很有用的。由于参数需要在多个节点之间共享,然后使用这些节点执行和完善它们的计算来更新它们,所以当涉及到共享时,这些大量数据可能成为瓶颈。共享在带宽、顺序机器学习(ML)算法的同步、机器的容错性方面代价高昂,故障率高达10%。Parameter sever(https://www.cs.cmu.edu/~muli/file/parameter_server_osdi14.pdf)提出了一种新的框架来解决这些问题,并构建了分布式机器学习算法。
Parameter Server提出了以下设计要求:
经典的监督机器学习(ML)问题包括在给定标记数据的训练集的情况下优化成本函数。在许多样本上改变和调整成本函数,以减少或最小化预测误差。为了调整模型或减少误差,计算偏导数/梯度。这些梯度有助于在正确的方向上移动权重,以最大限度地减少误差。
对于“d”维特征向量,模型尝试使用以下公式预测先前未见过的x的结果:for every i=1 to d, ∑xi * wi。为了确保模型相对较好地推广(即,它仅在训练数据上不能很好地执行),将正则化分量添加到预测函数。所以上面提到的函数变成Σxi* wi +ƛ* Norm(w)。这里ƛ用于惩罚在训练数据上发现的权重。这削弱了学习的权重,因此避免了过度拟合,并有助于对以前看不见的数据进行泛化。本文更侧重于该框架的系统方面。
让我们看看分布式随机梯度下降如何用于求解上述预测算法。下图描绘了迭代算法并行化工作的高级过程:
分布式训练算法
该系统由一些服务器节点和工作节点组成。每个worker加载一些数据子集,不同的workers加载不同的样本。每个worker计算本地数据的梯度以优化损失函数。然后,每个worker将这些部分梯度发送到服务器节点。服务器节点聚合从许多worker是、节点接收的那些梯度。完成服务器节点后,worker节点可以从服务器节点提取新的权重集,并再次执行梯度计算。大多数时间花在计算g1,g2,...,gm梯度上。这些是使用转置(X)* w计算的。如果w的数量级为数十亿至数万亿,这种计算在任何单个节点上都是不可行的。但是,每个节点仅处理数据子集的良好副作用是,他们只需要相对应的权重,如数据。如果一个人试图预测可能是用户点击一个广告,然后“regularizers”等词语不太有趣,大多数workers不会更新权重。正如你所看到的在上面的图中,给定节点上,只有x的权重(w)的特征存在/相关的点积是必要发送给工人节点(参见x在每个工作节点和相应的列稀疏权向量w)。
在较高的层次上,算法在每个worker上看起来如下:
在每台服务器上:
High level architecture
ParameterServer由服务器组组成,便于在系统中运行多种算法。服务器组中的每个服务器节点负责密钥空间/数据的分区。服务器可以相互通信以迁移/复制数据,以实现可伸缩性和可用性。服务器管理器负责维护服务器组的一致视图。它执行活动检查并为每个服务器节点分配密钥空间的所有权。
通常为应用程序分配工作组。多个workers节点构成工作组,它们与服务器组通信以提取参数和推送梯度,如上一节所述。工作组不需要相互通信。调度程序查看工作组并为其分配任务。通常,相同的工作节点通过在同一数据集上运行迭代算法来利用本地存储的数据。参数名称空间可用于在多个工作组之间进一步并行化工作。此外,可以在多个组之间共享相同的参数命名空间:典型示例是支持实时推理的一个组,而其他工作组可以支持模型的开发和共享参数的更新。
让我们看一下构建这种架构所需的一些原语
撰写本文时,现有系统使用键值对来传递共享参数。一个例子是feature-id及其权重。传统上,这是使用memcached或其他一些键值存储实现的。重要的见解是值主要是一些线性代数基元,例如向量或矩阵,并且能够优化对这些构造的操作是有用的。典型的操作是点积,矩阵乘法,L-2范数等。因此,保持键值语义和赋值作为向量,矩阵对于优化大多数常见的机器学习(ML)操作非常有用。
如前面算法中所述,从服务器节点和梯度中提取的权重被推送到服务器节点。支持基于Range的推送和拉取将优化网络带宽使用。因此,系统支持w.push(R,destination),w.pull(R,destination)来提取数据。在这两种情况下,对应于Range R中的键的值被从目的节点推送和拉出。将R设置为单个键,提供简单的键值读写语义。由于梯度g与w具有相同的密钥,因此w.push(R,g,destination)可用于将局部梯度推送到目的地。
任务可以看作是rpc。任何push或pull请求都可以是任务,也可以是正在执行的远程函数。任务通常是异步的,程序/应用程序可以在发出任务后继续执行。一旦接收到(键、值)对中的响应,就可以将任务标记为已完成。只有当给定任务所依赖的所有子任务返回时,才能将任务标记为已完成。任务依赖有助于实现应用程序的总体控制流。
从上面的模型中可以看出,任务是并行运行的,通常在远程节点上运行。因此,在各种任务之间存在数据依赖关系的情况下,可能最终会拉出旧版本的数据。在机器学习中,有时用旧的或不太旧的权重,而不是最近的权重,并不是太有害。Parameterserver允许实现者选择它们所追求的一致性模型。如下图所示,支持三种类型的一致性模型。在顺序一致性中,所有任务都是一个接一个地执行。在最终的一致性中,所有的任务都是并行开始并最终聚合的。在有界延迟中,只要任何任务开始大于“t”次已经完成,任务就会启动 - 下面的图c显示有界延迟为1。
一致性模型
聚合后复制
本文阐述了分布式机器学习的一些重要概念。从系统的角度来看,本文结合使用了一些很好的技术,比如一致哈希。基于范围的通信和支持消息传递的本机机器学习(ML)构造似乎是构建高效机器学习(ML)框架的良好洞察力。