现存的神经网络存在一个问题叫做梯度衰减(gradient decay?)。大致是说最后梯度很难对前面曾产生影响。p.s.我才知道这个问题在今年已经被解决。挺奇怪的,听说这个问题主要在于不同层之间的剃度能量不稳定。所以PReLu中引入了MSRA filter。后来又出现了Batch Normaliza...