Softmax Regression 总结

Softmax Regression

使用神经网络进行多分类任务时，通常在最后一层会使用一个softmax层，个人感觉它与sigmoid函数类似，都是将结果转变成一个类似概率的东西，这样会更加有利于计算当前损失，提升模型学习的效果。

首先对于一个输入$a^{[L-1]}$，先线性运算，

$z^{[L]} = w^{[L]}a^{[L-1]} + b^{[L]}$

前面的操作每一层都一样，但是激活函数就不一样了，

$t = e^{(z^{[L]})}$ $a^{[L]} = \frac{e^{(z^{[L]})}}{\sum_{i=1}^{n^{[L]}} t_i}$

首先将输出转成$t$，这样能够保证所有数值不为负，然而以它们在总和中所占的比例，作为它们当前的概率，也就是$a^{[L]_i}$就是分类为第$i$个分类的概率。

举例，对于一个$z^{[L]}$取值如下，

$z^{[L]} = \begin{bmatrix} 5 \\ 2 \\ -1 \\ 3 \end{bmatrix}$

求$t$为，

$t = \begin{bmatrix} e^5 \\ e^2 \\ e^{-1} \\ e^3 \end{bmatrix}$

那么$a^{[L]}$为，

$a^{[L]} = \frac{t}{\sum_{i=1}^{n^{[L]}} t_i} = \begin{bmatrix} e^5 / (e^5 + e^2 + e^{-1} + e^3) \\ e^2 / (e^5 + e^2 + e^{-1} + e^3) \\ e^{-1} / (e^5 + e^2 + e^{-1} + e^3) \\ e^3 / (e^5 + e^2 + e^{-1} + e^3) \end{bmatrix} = \begin{bmatrix} 0.842 \\ 0.042 \\ 0.002 \\ 0.114 \end{bmatrix}$

这里的到的$a^{[L]}$就可以看作一个概率值。

Loss_function：

由于softmax可以看成是Logistic Regression的推广，那么这里对损失函数的计算也对照Logistic Regression来推。

Logistic Regression的代价函数，这里把上面的$a^{[L]}$写为$\hat y$：

$J(W,b) = \frac{1}{m} \sum_{i=1}^m L(\hat y^{(i)},y^{(i)} ) = - \frac{1}{m} \sum_{i=1}^m y^{(i)}log \ \hat y^{(i)} + (1-y^{(i)})log(1 - \hat y^{(i)})$

首先，考虑单个样本，那么在Logistic Regression中单个样本的概率函数就是，

$P(y) = (\hat y)^y (1 - \hat y)^{1-y}$

同样的，在softmax中单个样本的概率函数以同样的形式可以写为，

$P(y) = \prod_{i = 1}^{n^{[L]}} (\hat y_i)^{y_i}$

进行对数似然，

$L(P(y)) = \sum_{i = 1}^{n^{[L]}} y_i log(\hat y_i)$

改为最小化似然函数，加上一个负号，

$L(P(y)) = -\sum_{i = 1}^{n^{[L]}} y_i log(\hat y_i)$

那么现在就可以考虑多样本输入的情况，直接在前面加上一个求和就行，

$L(P(y)) = -\sum_{i = 1}^{m}\sum_{j = 1}^{n^{[L]}} y_j^{(i)} log(\hat y_j^{(i)})$

梯度

代价函数就是上面的负对数似然，同样先考虑单样本，

$J(w,b) = -\sum_{j = 1}^{n^{[L]}} y_j log(\hat y_j)$

将$\hat y_j$换一下，忽略上标，

$J(w,b) = -\sum_{j = 1}^{n} y_j log(\frac{e^{z_j}}{\sum_{i=1}^{n} e^{z_i}})$ $= -\sum_{j = 1}^{n} y_j (log(e^{z_j}) - log(\sum_{i=1}^{n} e^{z_i}))$ $= -\sum_{j = 1}^{n} y_j log(e^{z_j}) + \sum_{j = 1}^{n} y_j log(\sum_{i=1}^{n} e^{z_i})$ $= -\sum_{j = 1}^{n} y_j z_j + log(\sum_{j=1}^{n} e^{z_j})$

先求一个$z_i$的导数，

$\frac{\partial J}{\partial z_i} = - y_i + \frac{e^{z_i}}{\sum_{j=1}^{n} e^{z_j}} = \hat y_i - y_i$

所以，对于一个样本的导数就可以写为，

$\frac{\partial J}{\partial z} = \hat y - y$

当然，多个样本的形式也和上面一模一样，所以反向传播时，其实计算是十分简单的。

注:

在cs231n课程里面，提到这里还有一个地方需要注意，因为中间会去求e的幂次，这很容易会造成上溢，所以通常对这个地方要做一个额外的处理，

$\frac{e^z}{\sum_{j=1}^{n} e^{z_j}} = \frac{Ce^z}{C\sum_{j=1}^{n} e^{z_j}} = \frac{e^{z+logC}}{\sum_{j=1}^n e^{z_j + logC}}$

这里的$C$，一般取值为，

$logC = -\max_j z_j$

那么为什么要叫做softmax呢？

它其实对应的是hard max，hard max的操作就是直接将$z^{[L]}$按照取值大小，直接硬转为0、1，所以这里取了一个soft…

$z^{[L]} = \begin{bmatrix} 5 \\ 2 \\ -1 \\ 3 \end{bmatrix} \Rightarrow \begin{bmatrix} 1 \\ 0 \\ 0 \\ 0 \end{bmatrix}$