首次证明了,学习到的特征,可以超越手动涉及的特征,且优势明显。
5 + 3 : 5 个卷积层 + 3 个全连接层
-
5 个卷积层
卷积核,逐渐变小 [11, 5, 3, 3, 3]
通道数,先增加,后减少 [96, 256, 384, 384, 256]
步幅,逐渐变小 [4, 2, 1, 1, 1]
[1, 2, 5] 卷积层后面,分别跟一个最大汇聚层,3x3,stride = 2
-
3 个全连接层
维度逐渐变小 [4096, 4096, 1000]
除了输出层外,全连接层后面,都跟了一层 dropout,用于降低模型容量,减少过拟合
-
非线性 / 激活函数
卷积层 / 全连接层,都是线性变换。因此,每一层后面,都跟一个 ReLU ,提供非线性性。
优势
-
整个正数定义域,都由梯度, 可以更新参数。
-
梯度简单,整数定义域为1, 负数定义域为0
-
-
最大汇聚层
3x3, 步幅为 2
则特征图的形状变为
$$ h1 = \lceil (h-2)/2 \rceil $$ $$ w1 = \lceil (w-2) / 2 \rceil $$
-
数据增强
翻转 / 裁剪 / 变色
-
使用 GPU 加速计算
-
空间复杂:约 62M 参数个数
-
计算复杂度:约 1G 乘积/加法运算次数
-
计算过程: AlexNet_analysis.ipynb
参考: