MobileNetV1, V2, V3整理(更)

MobileNet V1

v1版本的mobilenet,在自己的倒立摆实践中有过使用。在GPU上预测每张图片,仅用时4ms左右,达到了实时的效果。

mobilenet v1网络的核心,主要是使用了depthwise convolution 和 pointwise convolution两种卷积。

Depthwise convolution & Pointwise convolution

depthwise convolution和pointwise convolution将普通的卷积,拆分成两个过程:即各个像素与卷积核相乘求和,以及各通道相加这两个过程。

depthwise convolution对各个通道分别进行卷积运算,再通过1x1的pointwise convolution将各通道相加。

最显著的区别,在于卷积相乘求和这一步,减少了卷积核的大小。

示意图如下:
图片说明

计算量的对比如下:

假设从depthwise convolution输出到pointwise convolution输出,特征图大小保持DF不变,通道数由M减为N。

网络结构

除了第一层,卷积都替换成dc和pc,并加卷积层之后照旧加BN和ReLU。

MobileNet共有28层。

设置超参数宽度因子α、分辨率因子ρ。

MobileNet提出的第一个超参:宽度乘子(width multiplier) α ,用于减少通道数M,加入α的深度可分离卷积的计算代价为:

其中,α∈(0,1]α∈(0,1],通常设置为 1,0.75,0.5,0.251,0.75,0.5,0.25。该超参大约可以减少计算量 α2。

MobileNet提出的第二个超参:分辨率乘子(resolution multiplier) ρ ,用于减少输入图像及内部特征图的大小,在实践中,通过设置输入图像分辨率来隐性设置 ρ,加入ρρ的深度可分离卷积的计算代价为:

其中,ρ∈(0,1],输入图像分辨率通常设置为 224,192,160,128。该超参大约可以减少计算量 ρ2。

全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客企业服务