存在
存在着
存在
存在着
成功学习
学习的成功性
近乎恒定的近似
近似常数
形式的
形式上
,
删除多余的逗号
未部
尾部
发布
公布
细心
谨慎地
门控此自循环(由另一个隐藏单元控制)的权重
在生成门控自循(由另一个隐藏单元控制)的权重时
长短期记忆
长短期记忆模型
既然
因为
梯度可能\emph{关于时间步数数消失或成倍爆炸}
消失或爆炸\emph{与时间步数有关}
隐藏到隐藏
隐层到隐层
何向后传播
向后一步传播
J
所有矢量需要加粗
回声状态网络或ESN{cite?},以及流体状态机{cite?}分别独立地提出了这种想法
这种想法可以分别称为回声状态网络或ESN{cite?},以及流体状态机{cite?}。
{Doya93,Bengio1994ITNN,Siegelmann+Sontag-1995}及 {Pascanu-et-al-ICML2013}的回顾
在{Pascanu-et-al-ICML2013}中对{Doya93,Bengio1994ITNN,Siegelmann+Sontag-1995}的回顾
SGD
通过SGD
的鲁棒
具有鲁棒性
$v^
$v^*$
根据w
乘积$w^t$的消失还算激增是由$w$的幅值决定的
时间
情况
RNN
RNNs
根据\fig?中的RNN架构
换行
限制
不足
昂贵
代价更大
并且依赖于长期输入的表示
但仍依赖长期的输入
RNN
RNNs
我们要输出的y(t)
我们想依赖\emph{整个输入序列}预测输出$y^{(t)}$
RNN
常规RNN
x(t)
加粗
通过
是通过
{将固定长度的向量$\Vx$映射到序列$\MY$上分布的RNN。这类RNN适用于很多任务如图注,其中单个图像作为模型的输入,然后产生描述图像的词序列。观察到的输出序列的每个元素$\Vy^{(t)}$同时用作输入(对于当前时间步)和训练期间的目标(对于前一时间步)。}
个人认为图中隐层的s(...)应改为h(...)
向量
向量时
RNN
RNNs
x(τ)
x应该加粗
继续或停止
继续生成或停止生成
等效地
同样的
享依赖于
前提是
遥远过去
过去
h
textbf{h}
~h(t)
应当加粗
捕获
获得
解释为
作为
损失
损失函数
顺序节点
节点序列
。
。在展开图上使用反向传播称为通过时间的反向传播(Back Propagation Through Time)。
隐藏到隐藏
隐层到隐层
一种代表离散变量的自然方式
离散变量的常规表示方式
描述
步长
步
步长
t
时间$t$
摘要
summary的翻译需要进一步斟酌
h
\textbf{h}
架构
结构属性
关于
当
综合
概要
想法
思想
RNN
RNNs
跨越两个
两个
也可以是序列中的位置
有时仅表示序列中的位置
minibatch
小批量(%不知道翻译是否准确)
实践
实际
这种循环
这种循环方式
输出前一项
前一项输出
的函数
输入的函数
跨越时间
在时间上
使用跨越1维时间序列的卷积
在1维时间序列上使用卷积
,不需要分别学习句子每个位置的所有语言规则。
。
如
这里指
深度网络之一
深度网络
推广
联想
试图
视图
布置在空间图中。
此处应另起一段
虽然卷积网络已经被许多其他领域指导
虽然卷积神经网络在很多其他领域做了修改
故事
案例
隔离
单独地
独立地
单独地
一个中间方法是学习特征,但是使用一些特殊的方法,这些方法
一个用于特征学习的中间方法
每个梯度步骤需要完整的运行前向传播和反向传播通过整个网络
每步梯度计算需要完整的运行整个网络的前向传播和反向传播
昂贵
消耗资源
设计
如何设计
元素宽
元素
对于某些问题大小,这可能比离散型卷积的朴素实现更快
针对某些问题的规模,这种算法比离散卷积的实现更快。
强大的实现
需要进一步斟酌,但我也没有好的表述方法
成绩
成绩等级
直观
直接
这提供了使用卷积网络的令人信服的理由,即使当计算成本和过拟合也不是主要问题时。
我们有充分的理由相信:当计算成本和过拟合不是主要问题时,卷积神经网络是很好的一个网络模型。
训练成
被训练成
描述
介绍
收到
得到
用于通过卷积层反向传播误差的导数
在卷积层用于反向传播误差导数计算
采用除卷积以外的其他一些运算通常也是必须的
通常需要除卷积以外的其他运算
过滤器
滤波器
其中
例如
网络能够包含任意多的卷积层,只要硬件可以支持,这是因为卷积运算并没有改变相关的结构
只要有硬件支持,网络能包含任意多的卷积层,这是因为卷积运算不改变下一层网络的结构。
另外
增加
每一个
一个
这些多通道的运算只有当其中的每个运算的输出和输入具有相同的通道数时才是可交换的。
只有当其中的每个运算的输出和输入具有相同的通道数时,这些多通道的运算才是可交换的。
它们基于的线性运算并不保证一定是可交换的,即使使用了核翻转也是如此
所以即使使用了核翻转, 也不一定保证网络的线性运算是可交换的
它们会使用4维的张量
实际上它们包含4维向量
用于
处理
多个
多个不同
向量值的观测数据
观测数据的向量
一层
每一层
我们通常是指一次特定的运算,而这种运算包含了并行地使用多个卷积
我们通常是指由多个并行卷积组成的运算
略微有些不同
略有区别
给了
植入
有可能
有能力
卷积神经网络
卷积神经网络结构
可能
会
说
指
但在空间中改变
但可以在空间上移动
说
指
想成和全连接网络类似
类比全链接网络
要求
完全
对
需要对
,
。
较低
很低
对于参数的改变具有或多或少的自由性
或多或少的改变参数
具体
精确
依靠
基于
来更进一步
进一步
可能
可以
网络
部分网络
网络
部分网络
时间
运算时间
除了一些可能的边界像素,取决于对于边界的决策设计
是否考虑边界像素取决于边界设计策略
应用方面
实际应用中
运行时间
时间复杂度
百万个
成千上万
机器学习
机器学习的上下文中
有时
经常
我们的例子
本例
涉及到
预测到
含有噪声
受到一定程度的噪声干扰
实值函数
实参
一点一点
逐步
问题
基准