通过将Jacobi矩阵∂\bmy∂\bmx∂\bmy∂\bmx\frac{\partial \bm{y}}{\partial \bm{x}}是ggg的n×mn×mn\times m乘以梯度∇\bmyz∇\bmyz\nabla_{\bm{y}} z来得到
通过梯度∇\bmyz∇\bmyz\nabla_{\bm{y}} z与Jacobi矩阵∂\bmy∂\bmx∂\bmy∂\bmx\frac{\partial \bm{y}}{\partial \bm{x}}相乘获得
通过将Jacobi矩阵∂\bmy∂\bmx∂\bmy∂\bmx\frac{\partial \bm{y}}{\partial \bm{x}}是ggg的n×mn×mn\times m乘以梯度∇\bmyz∇\bmyz\nabla_{\bm{y}} z来得到
通过梯度∇\bmyz∇\bmyz\nabla_{\bm{y}} z与Jacobi矩阵∂\bmy∂\bmx∂\bmy∂\bmx\frac{\partial \bm{y}}{\partial \bm{x}}相乘获得
罚项
惩罚项
多个条目
多项
将多个操作组合在一起来
同时组合多个操作来
一组
一系列
是
是指具有
我们还需要引入操作
还需引入操作(operation)这一概念
通过网络传播信息来计算导数的想法是非常通用的
通过在网络中传播信息来计算导数的观点非常普遍
限
局限
学习的
学习到的
,
,以(增加连词“以”,更通顺)
涉及
需要(此处翻译成“需要”更恰当,“http://cn.bing.com/dict/search?q=involve&go=%E6%90%9C%E7%B4%A2&qs=n&form=Z9LH5&sp=-1&pq=involve&sc=8-7&sk=&cvid=4BF5A24B685849339E113D5129D5EEBE”)
另外一组函数的
函数的另外一组(原句有歧义)
∇\bmθJ(\bmθ)∇\bmθJ(\bmθ)
与原文不符
因为这个原因
因此
它
该分布
与之相对的
相反
任何时候
“任何时候”可删掉不翻译
它的
其
很强的
较大的
最好是使用一种不同的方法来
最好使用一种新的方法,
没有了指导
不再具有指导意义
提高
改善
并不能
无法
满足这个限制
为满足该约束条件
产生
计算
最大化对数似然此时等价于最小化均方误差。
而后,最大化对数似然等价于最小化均方误差。
用线性输出层来满足这种限制是困难的
线性输出层难以满足这种约束
正定的矩阵
正定矩阵
限制
限定
或者使得高斯分布的协方差是输入的函数
或更容易地使高斯分布的协方差矩阵作为输入的函数( 我认为“or to”中的“to”连接的是上句的“makes it straightforward to”中的“to”)
最大化似然的框架使它也可以很直观的来学习高斯分布的协方差矩阵
最大似然框架也使得学习高斯分布的协方差矩阵更加容易(短语“makes it straightforward to”意思是:使得......更容易)
带有
具有
但是
不过
我们关注把这些单元用作模型的输出
我们着重讨论将这些单元用作模型输出时的情况
任何种类的可以被用作输出的神经网络单元
各种可用于输出的神经网络单元
所以它们对基于梯度的优化算法没有任何困难并且可以被用在相当广泛的优化算法中
因此易于采用基于梯度的优化算法,甚至可以使用其他多种优化算法。
不会饱和
不具有饱和性
因为
由于
不幸的
可惜的
往往会导致糟糕的结果
往往成效不佳