AICS 第二章 深度学习基础


反向传播

最近研究稀疏张量核心架构,需要用到一些深度学习的知识,比如这里的反向传播。在使用稀疏张量核心进行训练时,一些权重被置为零,从而不进行正向和反向传播。而研究非零权重的反向传播很有意义。为此特意复习了一下本书反向传播这部分。

反向传播的本质就是求偏导数。对于经历了完整大学数学教育的理工科学生,其他理解方法都不如偏导数直观、快捷、高效。因为这是最基本的定义。

Input da[l]\text{Input} \ da^{[l]}

本文的神经网络是一个两层的简单神经网络,最后一层是 Logistic Regression(即 Sigmoid 激活函数),执行 二分类任务

交叉熵损失函数

L=1Mi=1N[yilog(y^i)+(1yi)log(1y^i)]L = - \frac{1}{M}\sum^{N}_{i = 1}[y_i\log(\hat y_i) + (1 - y_i)\log(1 - \hat y_i)]

参考吴恩达深度学习的 PPT:

流程图:

神经网络的反向传播计算示意图

公式总览:

公式总览

Epoch 和 Batch

Epoch

Batch


Author: Yixiang Zhang
Reprint policy: All articles in this blog are used except for special statements CC BY 4.0 reprint policy. If reproduced, please indicate source Yixiang Zhang !
评论
  TOC