残差网络ResNet
背景 在使用VGG块或NiN块等的神经网络中,当深度超过某个点时,模型的性能会急剧下降,或者说是退化(degradation). 当网络结构过深时,会出现以下问题 梯度消失或梯度爆炸:以梯度消失为例,反向传播时,没向前传播一层就会乘一个小于1的数,导致梯度越来越小。对于这个问题,现在已经有诸多解决方案,如BatchNorm等. 退化问题: ResN…
AlexNet
AlexNet 在2012年前,图像特征都是机械地计算出来的,计一套新的特征函数、改进结果,并撰写论文是盛极一时的潮流.Alex Krizhevsky、Ilya Sutskever和Geoff Hinton提出了一种新的卷积神经网络变体AlexNet,在2012年ImageNet挑战赛中取得了轰动一时的成绩。AlexNet横空出世,它首次证明了学习…
卷积Convolution
从全连接层到卷积 两个原则 平移不变性(translation invariance):不管检测对象出现在图像中的哪个位置,神经网络的前面几层应该对相同的图像区域具有相似的反应,即为“平移不变性”。 局部性(locality):神经网络的前面几层应该只探索输入图像中的局部区域,而不过度在意图像中相隔较远区域的关系,这就是“局部性”原则。最终,可以聚…
集成学习Boosting
Adaboost 提升方法的基本思路: 三个臭皮匠顶个诸葛亮。 前向分步算法 adaboost就是基函数为基本分类器的前向分步算法 考虑加法模型 f(x)=\sum\limits_{m=1}^{N}\beta_mb(x;\gamma_m) b为基函数,\gamma_m为基函数参数,\beta_m为基函数的系数 学习的过程即为最小化损失函数 \mat…
核方法Kernel Function
核技巧 映射函数: \phi(x): X \rightarrow H X为输入空间(欧氏空间R^n的子集或离散集合) H为特征空间,一般是高维的 函数K(x, z) = \phi(x) · \phi(z),则称K(x, z)为核函数 将 \langle x_i, x_j \rangle 替换为 K(x_i, x_j) 此时对偶问题为 \mathop…
支持向量机Support Vector Machine
硬间隔支持向量机 (线性可分的支持向量机) f(y) = sign(w^Tx + b) 判别模型 最大间隔分类器 我们目标是 max ~margin(w, b) \\ s.t. ~~~y_i(w^Tx_i + b) > 0 可知 margin(w, b) = \mathop{min}\limits_{w, b, x_i} ~distance(…
神经网络Neural Network
1.前向传播 将上一层的输出作为下一层的输入,并计算下一层的输出,一直到输出层为止 (图片源自网络) 使用矩阵表示 z^{(l)} = w^{(l)}a^{(l-1)} + b^{(l)} a^{(l)} = \sigma(z^{(l)}) 2.反向传播 记损失函数为L = C(W, b) 我们的目标是求\frac{\partial L}{\par…