[paper]Adversarial Transformation Networks: Learning to Generate Adversarial Examples
本文提出了ATN(Adversarial Transformation Network)方法来生成对抗样本。之前的许多方法都是利用梯度信息进行攻击,本文通过训练一个神经网络,将原图作为输入,输出为对抗样本。在给定原始输入的情况下,对分类器的输出进行最小的修改,同时限制新分类以匹配对抗目标类。
ATN神经网络可以被定义为:
θ \theta θ是神经网络的参数
f f f是目标网络
优化问题为:
L x L_{x} Lx是视觉损失
L y L_{y} Ly是类别损失
β \beta β是平衡这两个损失函数的权重系数
在本文中,将 L y L_{y} Ly定义为
reranking函数为:
函数作用为把网络输出的类别置信度进行修改,将定向攻击的目标类 t t t的置信度乘以一个系数 α \alpha α,且 α \alpha α > 1,保持其他类别的分类置信度大小顺序不变,只把定向攻击的目标类 t t t置信度提高到最大。
n o r m ( . ) norm(.) norm(.)是归一化函数,将输入缩放为有效的概率分布。
本文提出了两种方法生成对抗样本:
- P e r t u r b a t i o n A T N ( P − A T N ) Perturbation ATN (P-ATN) PerturbationATN(P−ATN)
- A d v e r s a r i a l A u t o e n c o d i n g ( A A E ) Adversarial Autoencoding (AAE) AdversarialAutoencoding(AAE)
Perturbation ATN (P-ATN)仅生成扰动,Adversarial Autoencoding (AAE)直接生成对抗样本。
β \beta β越小,攻击成功率越高,但图像保真度会随着 β \beta β的减小而降低。
通过单网络训练的ATN不具有泛化能力。
通过多网络训练的ATN具有较好的泛化能力。
Perturbation ATN (P-ATN)和Adversarial Autoencoding (AAE)的比较:
- AAE方法在重构图像时会去除高频数据,有可能是因为网络基础架构的限制。这种方法虽然可以最大程度的降低总体损失,但高频信息区域中像素的误差更大。图像整体变化较明显。
- P-ATN方法原始图像中保留了更多像素,但会在图像边缘或者角落产生较大的扰动。AAE方***将扰动分布在图像的不同区域中。基于梯度的对抗样本生成算法则通常会将噪声集中在具有较大梯度幅度的像素。
- 即使使用相同的网络和初始化参数,这两种方法产生的对抗样本差别也很大。