[paper]UPSET and ANGRI:Breaking High Performance Image Classifiers

本文提出了两种攻击算法,第一种是针对输出类别生成通用扰动(定向攻击),第二种针对不同图像生成特定扰动(定向攻击)。

  • UPSET:Universal Perturbations for Steering to Exact Targets
    UPSET网络为针对原始图像生成具有通用扰动的对抗样本,且可以使模型误分类为指定的目标类别。

    x x x:原始图像
    t t t :目标类别
    x ^ \hat{x} x^ :对抗样本
    对抗扰动: r j , j ∈ 1 , 2 , ⋯ , n r_j,j∈{1,2,⋯,n} rjj1,2,,n即生成第 j j j个目标分类的扰动
    残差生成网络: R , r t = R ( t ) R,r_t=R(t) Rrt=R(t)
    U U U :UPSET网络
    扰动叠加计算结果归一化到[−1,1],
    s s s:比例参数,用于调节扰动 r r r 的大小,一般取值为2。
    整体训练流程如下图所示:
  • ANGRI: Antagonistic Network for Generating Rogue Images
    ANGRI网络为针对原始图像生成具有特定扰动的对抗样本,且可以使模型误分类为指定的目标类别。
    x ^ = A ( x , t ) \hat{x}=A(x,t) x^=A(x,t)
    原始图像: x x x
    图像类别: c x c_x cx
    目标类别: t , t ≠ c x t,t≠c_x tt=cx
    A A A :ANGRI网络
    整体训练流程如下图所示:

    损失函数(以上两个方法都用的这个损失评估函数):

    m m m个预训练的分类器 C i C_i Ci,表示对抗样本 x ^ \hat{x} x^输出的分类概率 p i p_i pi p i = C i ( x ^ ) p_i=C_i(\hat{x}) pi=Cix^
    误差函数由两部分组成, L C L_C LC表示(错误)分类损失, L F L_F LF表示保真度损失。
    L C L_C LC是交叉熵损失。如果模型无法正确预测为目标类别 t t t,则 L C L_C LC会惩罚生成网络
    L F L_F LF x x x x ^ \hat{x} x^之间差异的范数,这确保了输入和输出图像看起来相似。
    权重 w w w用来折中两个损失指标,即图像保真度和对抗扰动的强弱
    k k k的选择应使其不会促进稀疏性,否则残差将在较小的区域中累积并且非常明显。
    如果 k = 2 k=2 k=2,那么就是 L 2 L2 L2范数,可以由 ∥ R ( x , t ) ∥ 2 2 \left \| R(x,t) \right \|_{2}^{2} R(x,t)22替换。

实验指标:

  • Targeted fooling rate (TFR): 定向攻击成功率
  • Misclassification rate (MR): 模型分类错误率
  • Fidelity score (FS): 对抗样本和原始图像的相似度
  • Confidence (C): 模型误分类时的平均置信度

实验结果:

全部评论

相关推荐

无情咸鱼王的秋招日记之薛定谔的Offer:好拒信,偷了,希望有机会用到
点赞 评论 收藏
分享
评论
点赞
收藏
分享
牛客网
牛客企业服务