在机器学习视频反向传播章节中:
我们用 来表示误差,则: 。我们利用这个误差值来计算前一层的误差:
。其中 是 形函数的导数,
。而 则是权重导致的误差的和。
看到这道算式时我百思不得其解。为什么凭空会有转置?
在我自己推一遍之后,发现原公式中可能有些不严谨的地方,所以在此阐述我的理解,欢迎大家指正:
对数似然代价函数:
估计函数:
Logistic激活函数:
此外激活函数导数为:
如图(省略了偏置),输入数据为 ,实际输出为
这张图上表示了所有的运算,例如:
同时,此图认为预测输出为 ,即有误差(注意此处不是定义而是结论):
下面我们将上列函数改写成对应元素的写法,先作定义:
综上可得,若 是倒数第二层,则给出定义:
将同一层 合并为矩阵得( 都是列向量):
下面推隐含层,以第一个单元为例:
令:
Erroneous nesting of equation structures\left\{\begin{align*} \boldsymbol\delta^{\left(L\right)}&=\begin{bmatrix}\delta_1^{\left(L\right)}\\\delta_2^{\left(L\right)}\\\vdots\\\delta_n^{\left(L\right)}\end{bmatrix}\\ \boldsymbol\Theta_i^{\left(L\right)}&=\begin{bmatrix} \left(\Theta_i^{\left(L\right)}\right)_1& \left(\Theta_i^{\left(L\right)}\right)_2& \cdots& \left(\Theta_i^{\left(L\right)}\right)_n \end{bmatrix}\end{align*}\right. 可将上式化为矩阵:
由上,可写出递推普式:
其中最后一层: