关于吴恩达机器学习中反向传播的理解

原文

在机器学习视频反向传播章节1中:

我们用 来表示误差,则: 。我们利用这个误差值来计算前一层的误差:

。其中 形函数的导数,

。而 则是权重导致的误差的和。

问题

看到这道算式时我百思不得其解。为什么凭空会有转置?

在我自己推一遍之后,发现原公式中可能有些不严谨的地方,所以在此阐述我的理解,欢迎大家指正:

前提

对数似然代价函数:

估计函数:

Logistic激活函数:

此外激活函数导数为:

我的理解

如图(省略了偏置),输入数据实际输出

这张图上表示了所有的运算,例如:

同时,此图认为预测输出 ,即有误差(注意此处不是定义而是结论):

下面我们将上列函数改写成对应元素的写法,先作定义:

  • :被 作用的层

  • 层单元数量,用 进行遍历(即

  • 层单元数量,用 进行遍历

推导

综上可得,若 是倒数第二层,则给出定义

将同一层 合并为矩阵得( 都是列向量):

下面推隐含层,以第一个单元为例:

令:

可将上式化为矩阵:

结论

由上,可写出递推普式

其中最后一层: