规则
Ax是m维向量,每个分量对于向量x有n个偏导数,梯度为nm $$\mathbf{x}^\top \mathbf{A} $$是n维向量,梯度为mn xᵀAx 中 x 出现了两次(左边一次右边一次),求导时每次"轮到"一个 x 被求导、另一个保留,分别贡献了 Ax 和 Aᵀx,加起来就是 (A + Aᵀ)x。这和标量情况下求导 d/dx(x·a·x) = 2ax 是同一个道理,只不过矩阵不一定对称,所以不是 2Ax 而是 (A + Aᵀ)x。
规则
Ax是m维向量,每个分量对于向量x有n个偏导数,梯度为nm $$\mathbf{x}^\top \mathbf{A} $$是n维向量,梯度为mn xᵀAx 中 x 出现了两次(左边一次右边一次),求导时每次"轮到"一个 x 被求导、另一个保留,分别贡献了 Ax 和 Aᵀx,加起来就是 (A + Aᵀ)x。这和标量情况下求导 d/dx(x·a·x) = 2ax 是同一个道理,只不过矩阵不一定对称,所以不是 2Ax 而是 (A + Aᵀ)x。
标量
f(x)是一个标量,输入变量x(向量),f(x)的梯度是包含n个x(分量)的偏导数的向量