yukyinbaby 2019-11-08
作者:LogM
文章中的数学公式若无法正确显示,请参见:正确显示数学公式的小技巧
逻辑回归模型的公式可以写作:
$$P(Y=1|x) = \frac{1}{1+e^{-wx}}$$
$$P(Y=0|x) = \frac{e^{-wx}}{1+e^{-wx}}$$
事件的几率(odd)被定义为:
$$odd = \frac{p}{1-p}$$
所以,对数几率(log odds)或称 logit 函数为:
$$logit(p) = log \frac{p}{1-p}$$
带入逻辑回归模型后,有:
$$log \frac{P(Y=1|x)}{1-P(Y=1|x)} = w \cdot x$$
可以发现,对数几率 $logit(p)$ 与 $x$ 是线性关系,所以可以称作"回归"。
逻辑回归需要解决的二分类问题,实际上是要建模:
$$P(Y=1|x) = f(wx)$$
$Y|x$ 的分布是伯努利分布,$wx$ 的分布是正态分布,函数 $f(x)$ 需要将正态分布映射到伯努利分布。什么样的函数具有这样的性质呢?数学家找到了 $f(x) = sigmoid(x)$。
其实上面解释"逻辑回归为什么叫回归"和"逻辑回归为什么使用sigmoid"的过程是不太准确的,是为了方便读者理解。对大多数同学来说,理解上面的解释就足够了。
如果要准确理解"逻辑回归"的话,需要读者事先知道广义线性模型
,这需要比较深的数学基础。
这块涉及的知识太多,我这边就简单提一下,需要读者自己去看PRML
这本书。
线性回归是"广义线性模型"的一种,逻辑回归也是"广义线性模型"的一种。线性回归的联结函数是恒等函数,所以线性回归不需要激活函数;逻辑回归的联结函数是sigmoid函数,所以逻辑回归的激活函数是sigmoid函数。