188 Matching Annotations
  1. Mar 2017
    1. 这些相互作用产生于一个潜变量与另一个潜变量或者当V-结构的子节点可观察时与更长的激活路径相连

      产生这些相互作用可能是因为潜变量间直接相连,也可能是因为观察某V-结构的子节点时,它们通过更长的激活路径相连

    2. 如果我们希望能够最大化L(v,h,q)L(v,h,q)\CalL(\Vv,\Vh,q),那么我们可以把\,MAP\,推断看成是输出一个qqq值的学习过程

      如果我们希望设计一个最大化L(v,h,q)的学习过程,那么把MAP推断视作一个给出q值的过程则很有帮助

    3. 的单一路径

      做单遍(single-pass)传递(论文原文:The algorithm learns a separate “recognition” model that is used to quickly initialize, in a single bottom-up pass, the values of the latent variables in all hidden layers. We show that using such a recognition model, followed by a combined top-down and bottom-up pass, it is possible to efficiently learn a good generative model of high-dimensional highly-structured sensory input.)

    4. 使用并不彻底的优化方法来使得优化的过程更加高效(却更粗略),但是优化的结果是不完美的,因为只能显著地提升LL\CalL而无法彻底地最大化LL\CalL。

      使用并不彻底的优化方法来使得优化的过程更加高效(却更粗略),不求彻底地最大化L,而只要显著地提升L。

    5. 如果我们选择条件概率分布来引入相对于图结构描述的额外的独立性这种情况也是可能出现的。

      如果我们选择条件概率分布来引入图结构描述的之外的独立性就可能出现这种情况。【这句话是接着上一句话说的】

    6. 一个深度玻尔兹曼机,被分层从而使得不存在层内连接

      一个深度玻尔兹曼机,变量分为若干层,且不存在层内连接

    7. 许多难以利用观察值进行精确推断的问题往往可以描述为一个优化问题

      精确推断问题可以描述为一个优化问题,有许多方法正是由此解决了推断的困难

    1. 通常使得对sss的估计出现了典型的估计不足,很难被整体的估计过量抵消

      这样一来,我们会常常欠估计$s$,而能将之抵消的严重过估计却很少发生【注:这两个分句分别对应着前面两种情况,gross应作“严重的”解】

    2. 另一方面,当q(x(i))≪p(x(i))|f(x(i))|q(x(i))≪p(x(i))|f(x(i))|q(\Vx^{(i)})\ll p(\Vx^{(i)}) \vert f(\Vx^{(i)})\vert 的时候, 样本会很少被采到

      另一种相对少见的情况是[EQUATION]

    3. 给定他们所有的邻居结点只要一些变量是条件独立的,那么这些变量可以被同时采样

      如果某些变量在给定相邻变量时是条件独立的,那么它们可以被同时采样

    4. 除非当nnn渐进性地趋近于∞∞\infty时,方程~\eq?的分母会收敛到1

      只有$n\to\infty$,17.14式的分母趋于$1$时才渐近成立等号

      (注意渐近的近是远近的近)

    5. 区域

      构型 【注:作者在涉及energy的地方回归物理学用了configuration一词,可译为“能量构型”;其实和state指的是一回事】

    6. 截止目前,我们已经描述了一个基于能量的模型的概率分布的定义

      此前,我们一直以概率分布定义基于能量的模型

    7. 但是对于吉布斯链来说从分布的一个峰值转移到另一个仍然是很困难的,比如说改变数字

      但是想让吉布斯链从分布的一个模转移到另一个(比如通过改变数字)仍然是很困难的

    8. 当目标分布有很多峰值并且以很高的概率被低概率区域所分割

      当目标分布包含很多被低概率区域分割的高概率模

    9. 然后从pmodelpmodelp_{\text{model}}中该点关于在无向图GG\CalG(定义了基于能量的模型结构)中邻接点的条件分布中抽样

      记模型结构的无向图表示为G,然后从p_model中该点关于G中其邻接点的条件分布中抽样

    10. 不同马尔可夫链的所有状态都会被某一个分布q(t)(x)q(t)(x)q^{(t)}(x)采到

      各条马尔可夫链的状态都是从某个分布q(t)(x)中采到的

    11. 我们根据拓扑顺序采样每一个变量,给定每个变量的所有父结点的条件下,这个变量是确定能够被采样的

      我们按拓扑序,在父结点给定的条件下依次采样各个变量(可以保证,这时父结点已经被采样过了)。

    12. 最方便的目标分布的表达是从基于能量的模型即p(x)∝exp(−E(x))p(x)∝exp⁡(−E(x))p(\Vx)\propto \exp(-E(\Vx))中采样

      介绍这些方法最方便的表述是从基于能量的模型即p(x)∝exp(−E(x))中采样

    13. 应用于所有基于能量的模型的通用理论保证是很常见的

      我们通常依赖于那些对所有基于能量的模型都能自然成立的、最一般的理论保证

    14. 最标准,最一般的要求是只适用模型分布处处不为000的情况

      最标准、最一般的理论保证只适用于那些各状态概率均不为零的模型【注:theoretical guarantee的意思类似于correctness proof】

    15. 事实上MCMC方法可以被广泛地应用在了许多包含概率为000的状态的概率分布中

      事实上,MCMC方法的适用范围比这要广,许多包含零概率状态的分布也可以用

    16. 分布pmodel(x)pmodel(x)p_{\text{model}}(\RVx)往往表达成一个无向模型

      这种情况通常发生在$p_{\text{model}}(\RV x)$表示为无向图模型时

    17. 尤其是针对于分类器模型的训练中一小部分错误分类样本产生的代价函数

      尤其是分类器这样的模型,其中代价函数主要由少量错误分类的样本产生

    18. 尽管一个好的qqq分布的选择可以显著地提高蒙特卡罗估计的效率,反之一个糟糕的qqq分布选择则会使效率更糟糕

      一个好的$q$分布的选择可以显著地提高蒙特卡罗估计的效率,而一个糟糕的$q$分布选择却会使效率大幅下降 (语句不通)

    19. 计算无偏估计的方差时,更倾向于用计算偏差平方和除以n−1n−1n-1而非nnn。

      我们更倾向于用方差的无偏估计,它由偏差的平方和除以$n-1$而非$n$得到

    1. 其中包括不同领域的(如语音识别或计算机视觉)专家以及不同领域间微小的迁移(transfer)。%此处难道是没有迁移吗

      语音识别和计算机视觉等不同领域的从业者需要专门进行研究,而领域之间的迁移很少