梯度、黑塞矩阵

梯度:考虑多变量函数 $f(\mathbf{x})$,其中 $\mathbf{x} = (x_1, x_2, \cdots, x_n)$,其梯度为

$$ \nabla f= \begin{bmatrix} \frac{\partial f}{\partial x_1} \\ \frac{\partial f}{\partial x_2} \\ \vdots \\ \frac{\partial f}{\partial x_n} \end{bmatrix} $$

黑塞矩阵:考虑多变量函数 $f(\mathbf{x})$,黑塞矩阵描述了梯度自身如何随着输入 $\mathbf{x}$ 的变化而变化

$$ H= \begin{bmatrix} \frac{\partial^2f}{\partial x_1^2} & \frac{\partial^2f}{\partial x_1\partial x_2} & \cdots & \frac{\partial^2f}{\partial x_1\partial x_n} \\ \frac{\partial^2f}{\partial x_2\partial x_1} & \frac{\partial^2f}{\partial x_2^2} & \cdots & \frac{\partial^2f}{\partial x_2\partial x_n} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial^2f}{\partial x_n\partial x_1} & \frac{\partial^2f}{\partial x_n\partial x_2} & \cdots & \frac{\partial^2f}{\partial x_n^2} \end{bmatrix} $$

  • 对角元素 $\frac{\partial^2 f}{\partial x_i^2}$:表示函数沿着单个坐标轴 $x_i$ 的曲率,这个值越大说明函数在 $x_i$ 维度上是高度弯曲的,梯度第 $i$ 个分量会迅速变化。
  • 非对角元素 $\frac{\partial^2 f}{\partial x_i \partial x_j}$:表示不同输入维度的相互影响,即当在 $x_j$ 方向移动时,函数在 $x_i$ 方向的斜率如何变化。如果值很大,则说明 $x_j$ 方向的移动对 $x_i$ 的方向影响很大。