Pytorch深度学习实战2-1：详细推导Xavier参数初始化(附Python实现)

1 参数初始化

参数初始化在深度学习中起着重要的作用。在神经网络中，参数初始化是指为模型中的权重和偏置项设置初始值的过程。合适的参数初始化可以帮助模型更好地学习和收敛到最优解。参数初始化的目标是使模型具有良好的初始状态，以便在训练过程中快速且稳定地收敛。错误的参数初始化可能导致模型无法正常学习，梯度消失或梯度爆炸等问题。

常见的参数初始化方法包括随机初始化、零初始化、正态分布初始化和均匀分布初始化等。这些方法根据不同的分布特性和模型结构选择合适的初始值。在某些情况下，不同层或不同类型的参数可能需要不同的初始化策略。例如使用预训练模型时，可以采用迁移学习的方法，将预训练模型的参数作为初始值，从而加速收敛并提高性能。

除了设置初始值外，参数初始化还可以与其他优化技术相结合，如学习率调整、正则化和批归一化等，以进一步提高模型的性能和稳定性

举例而言，如图所示是在 $\rm{tanh(\cdot)}$ 下九层神经网络各层激活输出，可以看到在网络深层激活输出逐渐衰减或保持不变

在这里插入图片描述

2 Xavier参数初始化原理

Xavier初始化的核心原理是保证各层网络的前向传播激活值和反向传播梯度值方差保持一致。Xavier初始化基于如下假设：

输入样本独立同分布采样，且各个特征维度方差相等；
激活函数 $\sigma \left( \cdot \right)$ 对称且近似线性区间满足 $\sigma \left( \boldsymbol{z} \right) \approx \boldsymbol{z}\Leftrightarrow \sigma '\left( \boldsymbol{z} \right) \approx 1$ ；
激活输入 $\boldsymbol{z}$ 处于激活函数的线性区间

2.1 前向传播阶段

根据

$\boldsymbol{a}^l=\sigma \left( \boldsymbol{z}^l \right) =\sigma \left( \boldsymbol{W}^l\boldsymbol{a}^{l-1}-\boldsymbol{b}^l \right)$

可得

$\mathrm{var}\left[ \boldsymbol{a}^l \right] \approx \mathrm{var}\left[ \boldsymbol{z}^l \right] =\mathrm{var}\left[ \boldsymbol{W}^l\boldsymbol{a}^{l-1}-\boldsymbol{b}^l \right]$

初始阶段第 $l$ 层的网络权重 $\boldsymbol{W}^l$ 的各个元素独立采样自某个分布 $P$ ，即

$\left[ \begin{array}{c} z_{1}^{l}\\ z_{2}^{l}\\ \vdots\\ z_{n_l}^{l}\\\end{array} \right] =\left[ \begin{matrix} w_{1,1}^{l}& w_{1,2}^{l}& \cdots& w_{1,n_{l-1}}^{l}\\ w_{2,1}^{l}& w_{2,2}^{l}& \cdots& w_{2,n_{l-1}}^{l}\\ \vdots& \vdots& \ddots& \vdots\\ w_{n_l,1}^{l}& w_{n_l,2}^{l}& \cdots& w_{n_l,n_{l-1}}^{l}\\\end{matrix} \right] \left[ \begin{array}{c} a_{1}^{l-1}\\ a_{2}^{l-1}\\ \vdots\\ a_{n_{l-1}}^{l-1}\\\end{array} \right] \Rightarrow \mathrm{var}\left[ z_{i}^{l} \right] =\mathrm{var}\left[ \sum_{k=1}^{n_{l-1}}{w_{1,k}^{l}a_{k}^{l-1}} \right]$

考虑到 $w_{i,j}^{l}$ 与前一层激活值 $\boldsymbol{a}^{l-1}$ 独立，所以

$\begin{aligned}\mathrm{var}\left[ z_{i}^{l} \right] &=\mathrm{var}\left[ \sum_{k=1}^{n_{l-1}}{w_{i,k}^{l}a_{k}^{l-1}} \right]\\& =\sum_{k=1}^{n_{l-1}}{\mathrm{var}\left[ w_{i,k}^{l}a_{k}^{l-1} \right]}\\&=\sum_{k=1}^{n_{l-1}}{\left( \mathrm{var}\left[ w_{i,k}^{l} \right] \mathrm{var}\left[ a_{k}^{l-1} \right] +\mathrm{var}\left[ w_{i,k}^{l} \right] \mathbb{E} ^2\left[ a_{k}^{l-1} \right] +\mathrm{var}\left[ a_{k}^{l-1} \right] \mathbb{E} ^2\left[ w_{i,k}^{l} \right] \right)}\end{aligned}$

根据激活函数对称性，可令 $\boldsymbol{W}^l$ 、 $\boldsymbol{a}^{l-1}$ 均值为0，根据假设中的方差关系

$\begin{cases} \forall i\,\,\mathrm{var}\left[ a_{i}^{l} \right] =\mathrm{var}\left[ \boldsymbol{a}^l \right]\\ \forall i,j\,\,\mathrm{var}\left[ w_{i,j}^{l} \right] =\mathrm{var}\left[ \boldsymbol{W}^l \right]\\\end{cases}$

上式可简化为 $\mathrm{var}\left[ z_{i}^{l} \right] =n_{l-1}\mathrm{var}\left[ w_{i,1}^{l} \right] \mathrm{var}\left[ a_{1}^{l-1} \right]$ ，改写成矩阵形式

$\mathrm{var}\left[ \boldsymbol{a}^l \right] \approx n_{l-1}\mathrm{var}\left[ \boldsymbol{W}^l \right] \mathrm{var}\left[ \boldsymbol{a}^{l-1} \right]$

结合 $\boldsymbol{a}^0=\boldsymbol{x}$ 可递推得到

${\mathrm{var}\left[ \boldsymbol{a}^l \right] \approx \mathrm{var}\left[ \boldsymbol{x} \right] \prod_{k=1}^l{n_{k-1}\mathrm{var}\left[ \boldsymbol{W}^k \right]}}$

2.2 反向传播阶段

根据 $\boldsymbol{\delta }^l=\left( \boldsymbol{W}^{l+1} \right) ^T\boldsymbol{\delta }^{l+1}\odot \sigma '\left( \boldsymbol{z}^l \right)$ 可得

$\mathrm{var}\left[ \boldsymbol{\delta }^l \right] \approx n_{l+1}\mathrm{var}\left[ \boldsymbol{W}^{l+1} \right] \mathrm{var}\left[ \boldsymbol{\delta }^{l+1} \right]$

结合 $\boldsymbol{\delta }^L=\nabla _{\boldsymbol{\tilde{y}}}E\odot \sigma '\left( \boldsymbol{z}^L \right) \approx \nabla _{\boldsymbol{\tilde{y}}}E$ 可递推得到

${\mathrm{var}\left[ \boldsymbol{\delta }^l \right] \approx \nabla _{\boldsymbol{\tilde{y}}}E\prod_{k=l+1}^L{n_k\mathrm{var}\left[ \boldsymbol{W}^k \right]}}$

为保证前向传播激活和反向传播梯度在网络中顺利流动，应保持各层参数方差相等，即满足

$\begin{cases} n_l\mathrm{var}\left[ \boldsymbol{W}^l \right] =1\\ n_{l-1}\mathrm{var}\left[ \boldsymbol{W}^l \right] =1\\\end{cases}$

由于第 $l$ 层的输入神经元个数 $n_{l-1}$ 和输出神经元个数 $n_l$ 一般不相等，故取折中

$\mathrm{var}\left[ \boldsymbol{W}^l \right] =\frac{2}{n_{l-1}+n_l}$

所以网络连接权采样自服从方差满足上式的分布即可，例如

$\boldsymbol{W}\sim \mathcal{N} \left( 0,\frac{2}{n_{l-1}+n_l} \right) \,\, \mathrm{or} \boldsymbol{W}\sim U\left( -\sqrt{\frac{6}{n_{l-1}+n_l}},\sqrt{\frac{6}{n_{l-1}+n_l}} \right)$

2.3 可视化思考

如图所示，经过Xavier初始化后网络各层前向和反向传播时的方差保持一致

在这里插入图片描述

如图所示，经过Xavier初始化后的测试误差通常更小

在这里插入图片描述

Xavier进一步指出：观察层与层之间传播的激活值和梯度有利于理解深层网络的训练复杂度；保持层与层之间激活值和梯度的良好流动对学习效果非常重要。尽管在Xavier初始化做出了比较苛刻的假设，且在工程上很容易被违反，但其在实践中被证明是有效的，已经成为很多深度学习框架的默认初始化方法之一。

3 Python实现

简单实现一下Xavier初始化

python">def initialize_parameters_xavier(layers_dims):
    parameters = {}
    L = len(layers_dims)
    for l in range(1, L):
        mu = 0
        sigma = np.sqrt(2.0 / (layers_dims[l - 1] + layers_dims[l]))
        parameters['W' + str(l)] = np.random.normal(loc=mu, scale=sigma, size=(layers_dims[l], layers_dims[l - 1]))
        parameters['b' + str(l)] = np.zeros((layers_dims[l], 1))
    return parameters

可视化

python">for l in range(1, num_layers):
	A_pre = A
	W = parameters['W' + str(l)]
	b = parameters['b' + str(l)]
	z = np.dot(W, A_pre) + b # z = Wx + b
	
	A = tanh(z)
	
	print(A)
	plt.subplot(1, 8, l)
	plt.hist(A.flatten(), facecolor='g')
	plt.xlim([-2, 2])
	plt.ylim([0, 1000000])
	plt.yticks([])
plt.show()