核技巧。 核策略
用词统一
核技巧。 核策略
用词统一
的每个
所有
足够快地找到损失函数的一个可以用的非常低的值。
及时地找到损失函数一个很小的值,
可能不能
不一定能
用于训练第二部分中工作效果
用于本书第二部分中的训练时效果不错。
一minibatch样本
一小批样本?
机器学习中的一个循环问题是大的数据集是好的泛化所必要的
机器学习中反复出现的一个问题是好的泛化需要大的训练集,
学习
估计
具有训练数据没有的,先验带来的信息利用优势
的优势是能够利用来自先验而非训练数据的信息
并非简单地回归到最大似然学习,我们仍然可以通过先验影响点估计的选择而获取贝叶斯方法的优点。
我们仍然可以让先验影响点估计的选择而利用贝叶斯方法的优点,而不是简单地回归到最大似然估计
非常有趣
大多数有意义的
虽然使用完整的贝叶斯后验分布进行参数θθ\Vtheta预测是非常合理的,但仍常常希望能够进行单点估计。
原则上,我们应该使用参数\theta的完整贝叶斯后验分布进行预测,但单点估计常常也是需要的
确定
确保
可以通过变换来遍历该流形
这些高度相似的样本可以通过变换来遍历该流形得到
是在连续数值数据和无监督学习的设定下被引入的
最初是用于连续数值和无监督学习的环境
感兴趣输出的变动只位于流形中的方向,或者感兴趣的变动只发生在我们从一个流形移动到另一个流形的时候
的输出中,有意义的变动都沿着流形的方向或仅当我们切换流形时
感兴趣的
有意义的
深度学习的动机与挑战
激发深度学习的挑战
深度分布式
深度的、分布式的
在样本数目和可区分区间数目之间具有指数增益
允许了样本数目和可区分区间数目之间的指数增益
假设数据由\emph{因素或特征组合},潜在地由层次结构中多个层级产生
假设数据由因素或特征组合产生,这些因素或特征可能来自一个层次结构的多个层级
一种棋盘
checkerboard特指西洋跳棋盘,不是棋盘的统称。后面也说到we could easily solve the checkerboard task by providingthe assumption that the target function is periodic。之所以说是periodic就是因为西洋跳棋盘是黑白相间的
许多不同的深度学习算法提出隐式或显式的适用于大范围人工智能问题的合理假设, 使其可以利用这些优势。
为了利用这些优势,许多不同的深度学习算法都提出了一些适用于多种AI任务的或隐或显的假设
这样,我们真的
通过这种方式,我们确实
是
去掉“是”
只要我们在区间相关性上引入额外的数据生成分布上的假设
只要我们通过额外假设生成数据的分布来建立区域间的依赖关系
良好
很好地
希望
想
这一般是对的
这样做一般没问题
单单是
如果仅依靠
无法保证预测能够正确
缺少主语。
考虑译成:”学习机不一定能举一反三“
位于棋盘中不包含训练样本的方块中
所在的方块没有训练样本
正确
正确地
至少nnn个叶节点的树去
至少拥有n个叶节点的树才能
大部分深度学习的现代动机
近年来深度学习的很多推动力
度量
用于度量
拷贝
抄袭:-)
预测在所有点xx\Vx都有相同的kkk个训练集中最近邻点的区域上是不变的。
当一个区域里的所有点x在训练集中的k个最近邻是一样的,那么对这些点的预测也是一样的。
kkk-最近邻型
k近邻系列
如果我们在输入xx\Vx处效果良好(例如,xx\Vx是一个有标签的训练样本),那么在xx\Vx的邻域上效果也良好
如果我们知道对应x输入的答案(比如x是个有标签的训练样本),那么该答案对于x的领域应该也适用。
函数$f^$满足条件 \begin{equation} f^(\Vx) \approx f^*(\Vx + \epsilon) \end{equation} 对于大多数设置xx\Vx和小变动ϵϵ\epsilon都成立。
函数$f^$对于大多数设置x和小变动ϵ,都满足条件 \begin{equation} f^(\Vx) \approx f^*(\Vx + \epsilon) \end{equation} 。
我们也可以非正式地探讨隐式表示的先验。 某些算法有偏地选择某类函数,即使这类有偏可能不能表示成(或者可能表示成)我们对不同函数偏好程度的概率分布。
我们还能通俗地说,先验信念还间接地体现在选择一些偏好某类函数的算法,尽量这些偏好并没有通过我们对不同函数置信程度的概率分布表现出来(也许根本没法表现)。
更非正式地,我们也可以探讨先验信念如何直接影响\emph{函数}本身,间接影响参数,作为参数与函数之间关系的结果
更通俗地讲,我们也可以说先验信念直接影响函数本身,而仅仅通过它们对函数的影响来改变参数。
discuss有talk about的意思 (Merriam-Webster)
如果我们希望
如果我们想要的话
以及不同领域间微小的迁移(transfer)。%此处难道是没有迁移吗?
领域之间可借鉴之处微乎其微
transfer应该是指knowledge transfer
其中包括不同领域的(如语音识别或计算机视觉)专家
从业人员各自善长特定的领域(如语音识别或计算机视觉)
等价地
同样
在不同训练点上取值的、含有噪声的的值。训练数据为我们提供了在不同训练点上取值的、含有噪声的的值。 训练数据为我们提供了在不同训练点上取值的、含有噪声的f^(\bm{x})的近似实例
含有噪声的近似实例,即f*(x)在不同点上的值
前馈网络是向循环网络前进中的概念奠基石
前馈网络是通往循环网络之路的概念基石
用线性输出层来满足这种限制是困难的
线性输出层很难满足这种限制
鲁棒
可靠?
具有全局的收敛保证
保证全局收敛
最相关
最有意义的
我们允许使用的单步函数
我们可以用来当作一个步骤的函数
两个等价的计算机程序根据不同的语言将具有不同的长度
两个用不同语言编写的等价程序长度不同
表示还存储着协助程序执行的状态信息,使输入更加有意义
表示层还存储着状态信息用于帮助程序理解输入
make sense of the input == explain the input
一层的激活函数没有必要对解释输入的变化因素进行编码
在某层激活函数里,并非所有信息都蕴函着解释输入的变化因素
根据这个观点
从这个角度上看,
是解释深度学习的一个观点。 另一个观点是
是深度学习的一方面。另一个方面是
给定第一隐藏层中边的描述
有了第一隐藏层描述的边缘
第一层可以比较相邻像素的亮度容易地识别边缘。
第一层可以轻易地通过比较相邻像素的亮度来识别边缘
是不可逾越的
是不可能的