本文提出了两种攻击算法,第一种是针对输出类别生成通用扰动(定向攻击),第二种针对不同图像生成特定扰动(定向攻击)。 UPSET:Universal Perturbations for Steering to Exact Targets UPSET网络为针对原始图像生成具有通用扰动的对抗样本,且可以使模型误分类为指定的目标类别。 x x x:原始图像 t t t :目标类别 x ^ \hat{x} x^ :对抗样本 对抗扰动: r j , j ∈ 1 , 2 , ⋯ , n r_j,j∈{1,2,⋯,n} rj,j∈1,2,⋯,n即生成第 j j j个目标分类的扰动 残差生成网络...