整个网络各层的尺寸和参数如下表格所示
CONV1的参数: 只跟滤波器有关,553个通道,看(28,28,6)知道有6个filters,最后还得加上偏置的参数(1,1,1,6),最终的parameters为 5×5×3×6+6 = 456
CONV2的参数: 滤波器5*5, 5×5 × 6通道 × 16filters + 6偏置参数(利用python广播)=2416
整个网络各层的尺寸和参数如下表格所示
CONV1的参数: 只跟滤波器有关,553个通道,看(28,28,6)知道有6个filters,最后还得加上偏置的参数(1,1,1,6),最终的parameters为 5×5×3×6+6 = 456
CONV2的参数: 滤波器5*5, 5×5 × 6通道 × 16filters + 6偏置参数(利用python广播)=2416
正向传播
输入是 Z = W × a[l-1] + b
db[2]=1mnp.sum(dZ[2],axis=1,keepdim=True)
np.sum是Python的numpy命令,用来对矩阵的一个维度求和,水平相加求和,而加上开关keepdims,就是防止python直接输出古怪的秩为1的数组,keepdim=True,确保Python输出的是矩阵,对于db^[2] 这个向量输出的维度是(n^[2],1),而不是(n^[2],)
隐藏层对应的权重W[1]W[1]W^{[1]}和常数项b[1]b[1]b^{[1]},W[1]W[1]W^{[1]}
这里的W已经是四个转置后的w堆叠起来的矩阵
逻辑回归使用线性模型,引入参数w和b,
逻辑回归的线性预测输出可以写成:y^ = wTx + b
引入Sigmoid函数,让输出限定在[0,1]之间,通常当作激活函数使用。
因为参数 w 和 b都是位置参数,定义一个 cost function,当取值最小的时候,得到对应的w和b。
利用梯度下降,可以计算出合适的w和b,从而最小化 cost function,梯度下降具体看笔记
此特征向量x是列向量,维度一般记为nxnxn_x
1个图片的尺寸是(64,64,3),转化后的维度是(12288,1)
如果是m张图片,维度为(12288,m),记为(n,m) 前者代表每个样本的特征个数, 后者代表样本的个数。
b
这里的b是一个实数,或者说一个 1 × 1 的矩阵,但是把b加到向量上的时候,python自动把这个b扩展为一个1 × m的行向量。
这个在python中叫做 广播
整个训练样本构成的输入矩阵X的维度是(nxnxn_x,m),权重矩阵w的维度是(nxnxn_x,1),b是一个常数值,而整个训练样本构成的输出矩阵Y的维度为(1,m)。
训练样本的输入X的维度是(nx,m)
前者代表: 每个样本的特征个数
后者代表: 样本的个数
权重矩阵w的维度是(nx,1)
b是常数值
输出维度为(1,m)