关于吴恩达机器学习中反向传播的理解

扑克2022/4/12大约 4 分钟约 1241 字

原文

在机器学习视频反向传播章节^[1]中：

我们用 $δ$ 来表示误差，则： $δ^{(4)} = a^{(4)} - y$ 。我们利用这个误差值来计算前一层的误差：
$δ^{(3)} = {(Θ^{(3)})}^{T} δ^{(4)} \cdot g^{'} (z^{(3)})$ 。其中 $g^{'} (z^{(3)})$ 是 $S$ 形函数的导数，
$g^{'} (z^{(3)}) = a^{(3)} \cdot (1 - a^{(3)})$ 。而 ${(Θ^{(3)})}^{T} δ^{(4)}$ 则是权重导致的误差的和。

问题

δ^{(3)} = {(Θ^{(3)})}^{T} δ^{(4)} \cdot g^{'} (z^{(3)})

看到这道算式时我百思不得其解。为什么凭空会有转置？

在我自己推一遍之后，发现原公式中可能有些不严谨的地方，所以在此阐述我的理解，欢迎大家指正：

前提

对数似然代价函数： $J (Θ) = y \ln h_{Θ} (x) + (1 - y) \ln (1 - h_{Θ} (x))$

估计函数： $h_{Θ} (x) = \sum_{i} Θ_{i} x_{i} = [\begin{matrix} Θ_{1} & Θ_{2} & \dots & Θ_{n} \end{matrix}] [\begin{matrix} x_{1} \\ x_{2} \\ ⋮ \\ x_{n} \end{matrix}]$

Logistic激活函数： $g (x) = \frac{1}{1 + e^{- x}}$

此外激活函数导数为： $g^{'} (x) = g (x) [1 - g (x)]$

我的理解

如图（省略了偏置），输入数据为 $x = [\begin{matrix} x_{1} \\ x_{2} \end{matrix}]$ ，实际输出为 $y = [\begin{matrix} y_{1} \\ y_{2} \end{matrix}]$

这张图上表示了所有的运算，例如：

a_{1}^{(2)} = g (z_{1}^{(2)})

z_{2}^{(2)} = {(Θ_{1}^{(1)})}_{2} x_{1} + {(Θ_{2}^{(1)})}_{2} x_{2}

同时，此图认为预测输出为 ${\hat{y}}_{1} = a_{1}^{(3)}$ ，即有误差（注意此处不是定义而是结论）：

δ_{1}^{(3)} = {\hat{y}}_{1} - y_{1} = a_{1}^{(3)} - y_{1}

下面我们将上列函数改写成对应元素的写法，先作定义：

$L$ ：被 $Θ$ 作用的层
$m$ ： $L$ 层单元数量，用 $j$ 进行遍历（即 $j \in {1, 2, \dots, m}$ ）
$n$ ： $L + 1$ 层单元数量，用 $i$ 进行遍历

推导

综上可得，若 $L$ 是倒数第二层，则给出定义：

\begin{aligned} δ_{i}^{(L + 1)} & = \frac{\partial J}{\partial z_{i}^{(L + 1)}} \\ = \frac{\partial J}{\partial a_{i}^{(L + 1)}} & \cdot \frac{\partial a_{i}^{(L + 1)}}{\partial z_{i}^{(L + 1)}} \\ = (\frac{- y_{i}}{a_{i}^{(L + 1)}} + \frac{1 - y_{i}}{1 - a_{i}^{(L + 1)}}) & \cdot g^{'} z_{i}^{(L + 1)} \\ = (\frac{- y_{i}}{a_{i}^{(L + 1)}} + \frac{1 - y_{i}}{1 - a_{i}^{(L + 1)}}) & \cdot a_{i}^{(L + 1)} (1 - a_{i}^{(L + 1)}) \\ = a_{i}^{(L + 1)} - y_{i} \end{aligned}

将同一层 $δ_{i}^{(L + 1)}$ 合并为矩阵得（ $δ, a, y$ 都是列向量）：

δ^{(L + 1)} = a^{(L + 1)} - y

下面推隐含层，以第一个单元为例：

\begin{aligned} δ_{1}^{(2)} & = \frac{\partial J}{\partial z_{1}^{(2)}} \\ = \frac{\partial J}{\partial z_{1}^{(3)}} & \cdot \frac{\partial z_{1}^{(3)}}{\partial a_{1}^{(2)}} & \cdot \frac{\partial a_{1}^{(2)}}{\partial z_{1}^{(2)}} & + \frac{\partial J}{\partial z_{2}^{(3)}} & \cdot \frac{\partial z_{2}^{(3)}}{\partial a_{1}^{(2)}} & \cdot \frac{\partial a_{1}^{(2)}}{\partial z_{1}^{(2)}} \\ = δ_{1}^{(3)} & \cdot {(Θ_{1}^{(2)})}_{1} & \cdot g^{'} z_{1}^{(2)} & + δ_{2}^{(3)} & \cdot {(Θ_{1}^{(2)})}_{2} & \cdot g^{'} z_{1}^{(2)} \end{aligned}

令：

\left\{\begin{align*} \boldsymbol\delta^{\left(L\right)}&=\begin{bmatrix}\delta_1^{\left(L\right)}\\\delta_2^{\left(L\right)}\\\vdots\\\delta_n^{\left(L\right)}\end{bmatrix}\\ \boldsymbol\Theta_i^{\left(L\right)}&=\begin{bmatrix} \left(\Theta_i^{\left(L\right)}\right)_1& \left(\Theta_i^{\left(L\right)}\right)_2& \cdots& \left(\Theta_i^{\left(L\right)}\right)_n \end{bmatrix}\end{align*}\right.

可将上式化为矩阵：

δ_{1}^{(2)} = Θ_{1}^{(2)} δ^{(3)} \cdot g^{'} z_{1}^{(2)}

结论

由上，可写出递推普式：

δ_{j}^{(L)} = Θ_{j}^{(L)} δ^{(L + 1)} \cdot g^{'} z_{j}^{(L)}

其中最后一层：

δ^{(L a s t)} = a^{(L a s t)} - y

机器学习视频反向传播章节 ↩︎