在深层神经网络中，由于每个层的输出都是上一层输出的非线性函数，所以如果每个层的输出都在0到1之间，那么无论神经网络有多少层，输出的梯度都将非常小。当神经网络输出初始权重过小或使用过饱和神经元（sigmoid在0和1处的导数接近0，无法更新参数）时，梯度在神经网络反向传播时呈指数缩小，产生消失现象。

梯度爆炸

在深层神经网络中，由于每个层的输出都是上一层输出的非线性函数，所以如果每个层的输出都在一个较大的范围内，那么无论神经网络有多少层，输出的梯度都将非常大。当神经网络输出初始权重过大时，梯度在神经网络反向传播时呈指数放大，产生爆炸现象。

场景及其原因

梯度消失与梯度爆炸其实是一种，以下情况梯度消失和梯度爆炸经常出现：

在深层神经网络中
采用了不合适的损失函数，比如 sigmoid。梯度爆炸一般出现在深层网络和权值初始化值太大的情况下

对激活函数进行求导，如果此部分大于 1，那么层数增多的时候，最终的求出的梯度更新将以指数形式增加，即发生梯度爆炸，如果此部分小于1，那么随着层数增多，求出的梯度更新信息将会以指数形式衰减，即发生了梯度消失.

解决方法

替换激活函数：sigmoid->LeakyReLU，tanh->ReLU，可以缓解梯度消失
改进梯度优化算法：使用Adam等算法
使用batch.normalization
使用残差结构

4.3.4 优化算法

梯度下降法(batch gradient descent, BGD)：全局模式。
随机梯度下降法(stochastic gradient descent, SGD)：随机从样本抽出一个子样本进行梯度更新。
小批量梯度下降法(mini-batch gradient descent, MBGD)：找一批次数据计算梯度，使用均值更新参数。
动量法(Momentum)：MBGD需要一个合适的学习率，太小则网络收敛太慢，太大则容易跳过最优点。动量法基于梯度的移动指数加权平均，对网络参数进行平滑处理，让梯度摆动幅度变小。

\begin{align} v&=0.8v+0.2\nabla w, &v\text{表示当前梯度，}\nabla w\text{表示前一次梯度} \\ w&=w-\alpha v,&\alpha \text{表示学习率} \end{align}

AdaGrad：将每一个参数的每一次迭代的梯度取平方累加后开方，用全局学习率除以它，作为新的学习率，从而到达自适应学习率的效果。

\begin{align} v&=history\_v+(\nabla w)^2\\ w&=w-\frac{\alpha}{\sqrt v + \delta}\nabla w, \delta\text{大约取}10^{-7} \end{align}

RMSProp：对参数梯度使用平方加权平均，进一步加快收敛。对梯度平滑处理。

\begin{align} v&=0.8\cdot history\_v+0.2\cdot(\nabla w)^2\\ w&=w-\frac{\alpha}{\sqrt v + \delta}\nabla w, \delta\text{大约取}10^{-7} \end{align}

Adam (Adaptive Moment Estimation)：将 Momentum 和 RMSProp 结合。自适应学习率，梯度摆幅小。

初始化梯度的累积量和平方累积量

v_w = 0, s_w = 0

第 t 轮训练，计算参数更新

\begin{align} v_w &= 0.8v + 0.2\nabla w \\ s_w &= 0.8s + 0.2(\nabla w)^2 \end{align}

更新参数

w = w - \alpha\frac{v_w}{\sqrt{s_w}+\delta}

注

SGD的api 为 torch.optim.SGD()
Adam的api 为 torch.optim.Adam()