这些相互作用产生于一个潜变量与另一个潜变量或者当V-结构的子节点可观察时与更长的激活路径相连
产生这些相互作用可能是因为潜变量间直接相连,也可能是因为观察某V-结构的子节点时,它们通过更长的激活路径相连
这些相互作用产生于一个潜变量与另一个潜变量或者当V-结构的子节点可观察时与更长的激活路径相连
产生这些相互作用可能是因为潜变量间直接相连,也可能是因为观察某V-结构的子节点时,它们通过更长的激活路径相连
并不是
通常不是
交替迭代最小化JJJ分别关于HH\MH和WW\MW的方式
交替地关于H和W做最小化
拼在一起并且记为HH\MH
拼成矩阵$\MH$
似然函数的对数
对数似然
复杂性
难处理性
并不是高斯
并不服从高斯分布
模型是高斯
是高斯模型
加上了鼓励稀疏的先验知识
加入诱导稀疏性(sparsity-inducing)的先验
在稀疏编码模型中,它起到了关键作用
它主要用于稀疏编码模型
解释
证明
是无效的
是无意义的(vacuously true“空真”)
如果我们希望能够最大化L(v,h,q)L(v,h,q)\CalL(\Vv,\Vh,q),那么我们可以把\,MAP\,推断看成是输出一个qqq值的学习过程
如果我们希望设计一个最大化L(v,h,q)的学习过程,那么把MAP推断视作一个给出q值的过程则很有帮助
MAP\,推断并不是
我们通常不视MAP推断为
一个最有可能的潜变量值
未知变量的最可能值
大量
很多不同
的单一路径
做单遍(single-pass)传递(论文原文:The algorithm learns a separate “recognition” model that is used to quickly initialize, in a single bottom-up pass, the values of the latent variables in all hidden layers. We show that using such a recognition model, followed by a combined top-down and bottom-up pass, it is possible to efficiently learn a good generative model of high-dimensional highly-structured sensory input.)
的第二个特质
带来的这第二个见解
在最优大\,M步更新中很难得到一个简单的解
很难求解最优的大M步更新
在最优大\,M步更新中很难得到一个简单的解
很难求解最优的大M步更新
另一个关键的性质
带来的另一个见解
还包含一些不同的解释
带给我们几个见解
也利用了相同的性质
也有这种特点
这种特定的性质并不仅仅适用于\,EM\,算法
这点并不是EM算法独有的
学习过程的一个基本思路就是
它包含了学习过程的基本框架
即使
尽管
最大化关于θθ\Vtheta的
关于$\theta$最大化
M
M(最大化)
E
E(期望)
使用并不彻底的优化方法来使得优化的过程更加高效(却更粗略),但是优化的结果是不完美的,因为只能显著地提升LL\CalL而无法彻底地最大化LL\CalL。
使用并不彻底的优化方法来使得优化的过程更加高效(却更粗略),不求彻底地最大化L,而只要显著地提升L。
简单
方便
概率对数
对数概率
。 因为
且
如果我们选择条件概率分布来引入相对于图结构描述的额外的独立性这种情况也是可能出现的。
如果我们选择条件概率分布来引入图结构描述的之外的独立性就可能出现这种情况。【这句话是接着上一句话说的】
可
被
一个深度玻尔兹曼机,被分层从而使得不存在层内连接
一个深度玻尔兹曼机,变量分为若干层,且不存在层内连接
存在大量潜变量的团
存在包含大量潜变量的团(有歧义)
通常很难
会难以
概率对数
对数概率
许多难以利用观察值进行精确推断的问题往往可以描述为一个优化问题
精确推断问题可以描述为一个优化问题,有许多方法正是由此解决了推断的困难
推断是一个优化问题
把推断视作优化问题
如何将这些技巧应用到训练其他方法难以奏效的概率模型
因有了这些训练技巧才变得易于处理的概率模型
同一个可见变量的共同祖先之间
某个可见变量的多个祖先之间
基本的
删去
一层
一个隐藏层
最大似然估计
最大似然参数学习
难以推断的原因在于
推断困难通常是指
研究者
从业者
降低
减小
通常使得对sss的估计出现了典型的估计不足,很难被整体的估计过量抵消
这样一来,我们会常常欠估计$s$,而能将之抵消的严重过估计却很少发生【注:这两个分句分别对应着前面两种情况,gross应作“严重的”解】
在于他们经常混合得很糟糕
在于马尔可夫链的混合通常不理想 【句子有歧义,不是混合MCMC methods】
其对应的权值却会非常大
相应的比值会非常大 【注:指p(x)f(x)/q(x)】
另一方面,当q(x(i))≪p(x(i))|f(x(i))|q(x(i))≪p(x(i))|f(x(i))|q(\Vx^{(i)})\ll p(\Vx^{(i)}) \vert f(\Vx^{(i)})\vert 的时候, 样本会很少被采到
另一种相对少见的情况是[EQUATION]
随机量的错误
大小不定的误差
随机量错误
不定大小误差
和
或
和
或
给定他们所有的邻居结点只要一些变量是条件独立的,那么这些变量可以被同时采样
如果某些变量在给定相邻变量时是条件独立的,那么它们可以被同时采样
的
地
除非当nnn渐进性地趋近于∞∞\infty时,方程~\eq?的分母会收敛到1
只有$n\to\infty$,17.14式的分母趋于$1$时才渐近成立等号
(注意渐近的近是远近的近)
最基础的
最重要的
也是最好的
也常常是最好的
技巧
方法
混合得更快
在模间混合得更快(漏译between modes)
模糊
小
比如说实验中的类别
实验中是不同的类别
值得指出的是,这些方法往往利用
或许可以说(It can be argued that...),这是因为利用了
从单位温度的分布中重新开始
继续在单位温度的分布中采样
初始
会暂时
区域
构型 【注:作者在涉及energy的地方回归物理学用了configuration一词,可译为“能量构型”;其实和state指的是一回事】
状态
构型
然而,我们利用了其他温度
但我们也可以利用其他的温度
在统计物理中反映了基于能量的模型的本质
反映出基于能量的模型的统计物理学起源
截止目前,我们已经描述了一个基于能量的模型的概率分布的定义
此前,我们一直以概率分布定义基于能量的模型
基于构造一个不同的概率分布
构造一个概率分布替代目标分布
所有这些问题可以使MCMC方法不那么有用
这些问题就使MCMC方法变得不那么有用了
但是对于吉布斯链来说从分布的一个峰值转移到另一个仍然是很困难的,比如说改变数字
但是想让吉布斯链从分布的一个模转移到另一个(比如通过改变数字)仍然是很困难的
有着
要有
可以
【是】可以
几个这样的转移是很艰难的
某几个这样的转移难以完成
代价是很昂贵的
开销很高【注:指的是计算开销】
地
的
地
的
而是需要
更
不能仅仅
不仅
两个变量取一样的符号的概率几乎相等
两个变量取这两种符号的可能性相等
bbb取到1
b也取到1
给定bb\RSb时的条件分布
b的条件分布
二元
二值
跨越
进入
所有的分布马尔可夫链
运行的马尔可夫链
严重的问题
the problem arises,没有“严重的”
当目标分布有很多峰值并且以很高的概率被低概率区域所分割
当目标分布包含很多被低概率区域分割的高概率模
峰值
模,下同
峰值
模(最频值,mode),见《模式分类》P78/472
相连的
连通的
随机变量被采样
被采样的随机变量
等效的
可删去,前面已经翻译出“等价于”了
马尔可夫链以正比于不同区域对应概率的概率访问这些区域
马尔可夫链会按概率大小访问许多不同区域
情景下
领域中
他们
它们
给定可见单元
给定全部可见单元
然后从pmodelpmodelp_{\text{model}}中该点关于在无向图GG\CalG(定义了基于能量的模型结构)中邻接点的条件分布中抽样
记模型结构的无向图表示为G,然后从p_model中该点关于G中其邻接点的条件分布中抽样
如何确定一个有效的q(x)q(x)q(\Vx)分布
如何确定分布$q(\Vx)$是有效的
决定
判断
这些
包括以上在内的诸多
通常不能
不能真的
消除潜在因素的干扰
减少时延(latency)
完全无关
足够无关
马尔可夫链在计算上是非常昂贵的
马尔可夫链的计算开销很大
存在强烈的相关性
高度相关
包括了
包括了XXX的操作/需要XXX
固定点
不动点
固定点
不动点
会简要地
很快会(shortly)
之后的采样过程
再重复转移采样过程
静止点
稳定点
是实数且大小为1
是实数$1$
对于
如果对于
关于AA\MA的指数变化
求$\MA$的幂
不同个
不同的?
重新写成
改写
根据状态为整数的设定
利用我们的整数值参数
不同马尔可夫链的所有状态都会被某一个分布q(t)(x)q(t)(x)q^{(t)}(x)采到
各条马尔可夫链的状态都是从某个分布q(t)(x)中采到的
我们将这种状态
此时我们可以把状态简单
重定义这个问题
改换参数表示这一问题
状态
值
我们根据拓扑顺序采样每一个变量,给定每个变量的所有父结点的条件下,这个变量是确定能够被采样的
我们按拓扑序,在父结点给定的条件下依次采样各个变量(可以保证,这时父结点已经被采样过了)。
以一个任意状态的点xx\Vx作为起始点
从某个可取任意值的状态$\Vx$出发
然而往往又不存在一种
“一种”后加上“易处理的方法来”【漏译tractable method】
最方便的目标分布的表达是从基于能量的模型即p(x)∝exp(−E(x))p(x)∝exp(−E(x))p(\Vx)\propto \exp(-E(\Vx))中采样
介绍这些方法最方便的表述是从基于能量的模型即p(x)∝exp(−E(x))中采样
通过
可以
单路径
单遍(single-pass)
原始采样
建议:“原始采样”似乎没有体现出ancestral一词的含义,建议译为祖先采样
难以解释的
难处理的(intractable)
记作p(a,b)
记其给出的分布为$p(a,b)$
应用于所有基于能量的模型的通用理论保证是很常见的
我们通常依赖于那些对所有基于能量的模型都能自然成立的、最一般的理论保证
具体分析证明
逐一加以证明
最标准,最一般的要求是只适用模型分布处处不为000的情况
最标准、最一般的理论保证只适用于那些各状态概率均不为零的模型【注:theoretical guarantee的意思类似于correctness proof】
事实上MCMC方法可以被广泛地应用在了许多包含概率为000的状态的概率分布中
事实上,MCMC方法的适用范围比这要广,许多包含零概率状态的分布也可以用
EBM
EBM表述
算法
方法
算法
方法
算法
方法(前后统一)
分布pmodel(x)pmodel(x)p_{\text{model}}(\RVx)往往表达成一个无向模型
这种情况通常发生在$p_{\text{model}}(\RV x)$表示为无向图模型时
尤其是针对于分类器模型的训练中一小部分错误分类样本产生的代价函数
尤其是分类器这样的模型,其中代价函数主要由少量错误分类的样本产生
似然函数的对数
对数似然
具有大规模
包含大量
通常
有可能
这些
这种
权值之和很小或趋于零
加数很小或者为零
于
与?
并且无法
而不足以
估计
估计量
尽管一个好的qqq分布的选择可以显著地提高蒙特卡罗估计的效率,反之一个糟糕的qqq分布选择则会使效率更糟糕
一个好的$q$分布的选择可以显著地提高蒙特卡罗估计的效率,而一个糟糕的$q$分布选择却会使效率大幅下降 (语句不通)
这种估计
这一估计量
渐进性无偏
渐近无偏
这种估计
这一估计量
降低
减小
得到一个期望上正确的值的
能得到正确期望的
所有的问题
原问题
对
可能对(can be)
估计值
估计量
估计
估计量
估计
估计量
(本章许多estimator都被翻译成了估计,这是不准确的)
从\eqn?所示的关系中可以发现
由等式\eqref{}可得
通常
删去
从衡量一定采样数所达到精度的角度说
如果考虑达到某给定精度所需要的样本数
通常
总(可以不译出)
存在不唯一
不存在唯一
使用一个趋近于目标分布估计的序列
找出一列收敛于目标分布的估计量
累积密度函数
累积分布函数
估计
估计量
计算无偏估计的方差时,更倾向于用计算偏差平方和除以n−1n−1n-1而非nnn。
我们更倾向于用方差的无偏估计,它由偏差的平方和除以$n-1$而非$n$得到
这种近似可以被证明拥有如下几个性质
下面几个性质表明了这种近似的合理性
在其他情况下
还有些时候
如
或
发布一个失败报告
报告求解失败
通常
总是
封闭形式
闭式
为了对在整个训练集上的表现进行评估,
评估整个训练集上表现的
前馈网络充分发挥作用的一个简单例子
一个可以完整工作的前馈网络
其中包括不同领域的(如语音识别或计算机视觉)专家以及不同领域间微小的迁移(transfer)。%此处难道是没有迁移吗
语音识别和计算机视觉等不同领域的从业者需要专门进行研究,而领域之间的迁移很少
并没有将足够的先验信息进行编码
包含的先验信息不足
平滑
函数一般叫“光滑”
封闭形式
通过闭式
观测
neuroscience应该叫观察好些吧,天文叫观测。。
自然语言
翻译成“自然语言处理”是否好些