it is guaranteed that the local minimum is within a known factor of the global minimum. This factor is
使用alpha-扩展法,局部极小点始终在全局极小点乘以某一因子(2c)的范围内。
it is guaranteed that the local minimum is within a known factor of the global minimum. This factor is
使用alpha-扩展法,局部极小点始终在全局极小点乘以某一因子(2c)的范围内。
The alpha-expansion algorithm can only be used with metric term.
只有同时符合非零性和三角不等式性时,才可使用alpha-扩展的方法解能量最小的问题。若只满足非零性,只能采用alpha-beta交换法
弯曲
曲折(弯曲偏向于动词,此处需要名词)
对比其他方法是有用且受启发的,可以了解自编码器为什么对流形学习是有用的
To understand why autoencoders are useful for manifold learning, it is instructive to compare them to other approaches为了理解自动编码器可用于流行学习的原因,可以将自动编码器和其他方法进行对比
为了使重构函数对数据点周围的扰动输入不敏感,我们可以让自编码器恢复流形的结构
by making the reconstruction function insensitive to perturbations of the input around the data points, we cause the autoencoder to recover the manifold structure我们可以通过构建对于数据点周围的输入扰动不敏感重构函数,使得自动编码器恢复流形结构
迫使
驱使
技术
技巧(原文中一些techniques翻译成“技巧”,“手法”更通顺些)
事实是关键的
这一点很关键
说明了我们能如何微小地改变xx\Vx而一直处于流形上
决定了在保持x处于流形上的同时,如何微弱地变动x
去噪地训练一类采用高斯噪声和均方误差作为重构误差的特定去噪自编码器(sigmoid隐藏单元, 线性重构单元)
Denoising training of a specific kind of autoencoder (sigmoidal hidden units,linear reconstruction units) using Gaussian noise and mean squared error as the reconstruction cost以高斯噪声和均方误差作为重构误差,对一种包含sigmoid隐含层,线性重构单元的特定自动编码器的去噪训练过程
鼓励
cushi
我们通常使用线性输出单元参数化高斯分布的均值(如果xx\Vx是实的)
如果x是实数,那么我们通常使用线性输出单元为高斯分布的均值设置相关参数
将编码器和解码器作为去噪自编码器训练,能使它们渐近地相容(有足够的容量和样本)
在保证足够的容量和样本的情况下,将编码器和解码器作为去噪自编码器训练,能使它们渐近地相容(调整了一下语序)
编码器和解码器的分布没有必要与一个唯一的联合分布pmodel(x,h)pmodel(x,h)p_{\text{model}}(\Vx, \Vh)的条件分布相容
In general, the encoder and decoder distributions are not necessarily conditional distributions compatible with a unique joint distribution pmodel(x, h) 通常情况下,编码器和解码器的分布没必要是与唯一一个联合分布相兼容的条件分布。
区别之前看到的前馈网络
与我们之前了解到的前馈网络相区别
但一些技术(如混合密度输出)可以解决输出相关的建模
but some techniques such as mixture density outputs allow tractable modeling of outputs with correlations.但是一些模型,例如混合密度输出,可以解决输出变量之间具有相关性的问题。(意译,仍感觉不太准确)
我们通常认为输出变量与给定hh\Vh是条件独立的
Typically, the output variables are treated as being conditionally independent given h 通常认为在给定h情况下的输出变量是条件独立的
等等
,以此类推
二值xx\Vx对应参数由sigmoid单元确定的Bernoulli分布
如果x满足Bernoulli分布,那么使用Sigmoid输出单元为相关参数赋值(意译了一下)
学习好的特征
compute the learned features已经习得的特征(原译处可能会产生歧义)
映射到低维空间能帮助泛化提示了这个想法
The hints provided by the mapping to the lower-dimensional space aid generalization.映射到低维空间所提供的线索有助于泛化。
降维的许多形式是跟彼此邻近的样本语义相关的
Many forms of dimensionality reduction place semantically related examples near each other 许多降维的形式会将语义上相关的样本彼此置于相近的位置。
在30个单元的瓶颈处达到极值
culminating in a bottleneck of 30 units 终结于30个单元的瓶颈(原文中感觉没有写到“极值”)
一个深度自动编码器并逐渐变小隐藏层
a deep autoencoderwith gradually smaller hidden layers 一个隐含层逐渐减小的深度自动编码器 (仍觉得逐渐减小翻译不太好,可否增加一些词语改为“一个隐含层中神经元个数逐渐减少的深度自动编码器”)
一个编码器函数h=f(x)
一个由函数h=f(x)表示的编码器
我们可以想象只有一维编码的自动编码器,但具有一个非常强大的非线性编码器,能够将每个训练数据x(i)x(i)\Vx^{(i)}表示为编码 i i~i。 解码器可以学习将这些整数索引映射回特定训练样本的值。
我们可以设想有这样一个自动编码器,它只有一维编码,但是它具有一个强大到可以利用每个编码i去表示每一个训练样本x(i)的非线性编码器,以及可以将这些整数索引映射回特定的训练样本数据的解码器(?)
实践
实际情况
太大
过大
自动编码器学到了训练数据的主元子空间(执行复制任务的副效用)
自动编码器被训练复制输入的同时会学习到训练数据的主元子空间
衡量g(f(x))g(f(x))g(f(\Vx))与xx\Vx的不相似性
对于g(f(x))和x的差异予以惩罚(?)
对输入进行复制的任务
对输入进行复制
比较原始输入和重构输入激活
比较网络对于原始输入的激活值和重构结果的激活值
通常使用minibatch梯度下降法(基于反向传播计算的梯度)
通常情况下即基于误差反向传播算法的minibatch梯度下降法
一种特殊情况
一个特例
看到
揭示
生成
生成式
自动编码器的想法一直是神经网络历史景象的一部分~{cite?}
自动编码器的思想成为神经网络发展史的一部分(?)
如果一个自动编码器学会简单地设置g(f(x))=xg(f(x))=xg(f(\Vx)) =\Vx,那么这个自动编码器就不会特别有用。
如果一个自动编码器只是设定g(f(x))=x为目标而进行简单地学习,那么这个自动编码器就没什么特别的用处。
类似训练数据的输入
与训练数据相似的输入