Qunicy 2019-07-09
如今机器学习的数据集动则几千万或上亿,如果运用我们之前学过的 Batch 梯度下降算法,就会发现效率很低,因为在梯度下降时,每次循环都要对所有的数据进行求和,这会浪费大量的时间。有没有更好的方法去处理大数据呢?答案是有的。我们在处理大数据时,会选择随机梯度下降算法(Stochastic gradient descent)。
下面是随机梯度下降算法的代价函数:
之后是随机梯度下降算法:
首先需要随机打乱所有的数据集,然后就到了算法的核心,这个算法有两层循环,外循环通常来说有 1-10 次,具体次数视问题而定;内循环遍历所有的数据集一次,相比 Batch 梯度下降算法 ,它不需要每次循环都遍历一遍数据集。
我们可以把 Batch 梯度下降算法和随机梯度下降算法运行过程画在一张图上:
红色的路线为 Batch 梯度下降算法的收敛路线,粉色为随机梯度下降算法的收敛路线。可以看到,随机梯度下降算法不一定每次都会进行收敛,但总体会朝着收敛的方向进行,最终收敛到全局最小处。