затухание градиента
Для борьбы с затуханием можно применять несколько выходов в разных частях NN:
Sigmoid и Tanh приводят к затуханию градиента, ReLU гораздо меньше приводит к затуханию, поэтому она популярна, у Leaky ReLU еще лучше дела с градиентом, у ELU тоже неплохо сохраняется градиент.
Можно ли домножить градиент на что-то для "взбадривания", чтобы он не затух?
В любых моделях есть сигнал и шум, и чем больше умножается производная на маленькое число, тем меньше сигнал, а шум остается, если потом градиент умножить на какое-то число то увеличится и сигнал и шум, так, если градиент уже стал меньше, чем шум, то после умножения градиента на число мы будем уже получать больше шума, чем сигнала от нашего градиента