[paper]UPSET and ANGRI:Breaking High Performance Image Classifiers
本文提出了两种攻击算法,第一种是针对输出类别生成通用扰动(定向攻击),第二种针对不同图像生成特定扰动(定向攻击)。
- UPSET:Universal Perturbations for Steering to Exact Targets
UPSET网络为针对原始图像生成具有通用扰动的对抗样本,且可以使模型误分类为指定的目标类别。
x x x:原始图像
t t t :目标类别
x ^ \hat{x} x^ :对抗样本
对抗扰动: r j , j ∈ 1 , 2 , ⋯ , n r_j,j∈{1,2,⋯,n} rj,j∈1,2,⋯,n即生成第 j j j个目标分类的扰动
残差生成网络: R , r t = R ( t ) R,r_t=R(t) R,rt=R(t)
U U U :UPSET网络
扰动叠加计算结果归一化到[−1,1],
s s s:比例参数,用于调节扰动 r r r 的大小,一般取值为2。
整体训练流程如下图所示:
- ANGRI: Antagonistic Network for Generating Rogue Images
ANGRI网络为针对原始图像生成具有特定扰动的对抗样本,且可以使模型误分类为指定的目标类别。
x ^ = A ( x , t ) \hat{x}=A(x,t) x^=A(x,t)
原始图像: x x x
图像类别: c x c_x cx
目标类别: t , t ≠ c x t,t≠c_x t,t=cx
A A A :ANGRI网络
整体训练流程如下图所示:
损失函数(以上两个方法都用的这个损失评估函数):
有 m m m个预训练的分类器 C i C_i Ci,表示对抗样本 x ^ \hat{x} x^输出的分类概率 p i p_i pi , p i = C i ( x ^ ) p_i=C_i(\hat{x}) pi=Ci(x^)
误差函数由两部分组成, L C L_C LC表示(错误)分类损失, L F L_F LF表示保真度损失。
L C L_C LC是交叉熵损失。如果模型无法正确预测为目标类别 t t t,则 L C L_C LC会惩罚生成网络
L F L_F LF是 x x x和 x ^ \hat{x} x^之间差异的范数,这确保了输入和输出图像看起来相似。
权重 w w w用来折中两个损失指标,即图像保真度和对抗扰动的强弱
k k k的选择应使其不会促进稀疏性,否则残差将在较小的区域中累积并且非常明显。
如果 k = 2 k=2 k=2,那么就是 L 2 L2 L2范数,可以由 ∥ R ( x , t ) ∥ 2 2 \left \| R(x,t) \right \|_{2}^{2} ∥R(x,t)∥22替换。
实验指标:
- Targeted fooling rate (TFR): 定向攻击成功率
- Misclassification rate (MR): 模型分类错误率
- Fidelity score (FS): 对抗样本和原始图像的相似度
- Confidence (C): 模型误分类时的平均置信度
实验结果: