数值稳定性和权重初始化2023年3月27日 · 阅读需 3 分钟梯度爆炸和梯度消失问题 梯度爆炸 因为梯度的计算是通过偏导数的链式法则,所以,对于一个很深的网络,反向传播时,计算最后几层的梯度,很可能会超出数值的边界。比如cuda限制了16位的浮点数运算。这时,$1.1^100$超过了数值上界,程序就会报错。 梯度消失