[paper]ADVERSARIAL EXAMPLES IN THE PHYSICAL WORLD
本文指出在现实世界的场景下,机器学习系统也是非常脆弱的。并提出了BIM&ILCM算法,可用于现实世界场景下的对抗样本生成。
论文主要内容:
- 探讨了为在物理世界中运行的机器学习系统创建对抗样本的可能性
- 提出了两种方法来生成对抗样本,BIM&ILCM:
- 引入破坏率来表示现实世界中的变换对对抗样本的影响
损失函数—交叉熵损失(这里省略了网络权重 θ \theta θ)
J ( X , y ) = − l o g P ( y ∣ X ) J(X,y)=-logP(y|X) J(X,y)=−logP(y∣X)
Clip函数— C l i p x , ϵ X ′ Clip_{x,\epsilon }{ {X~{'}}} Clipx,ϵX ′
x,y,z 分别表示 X X X(图片)的宽度、高度、通道数。
该公式的意思是限制生成的对抗样本在 X X X的 ϵ 邻域内。
BIM&ILCM算法:
BIM是FGSM算法的拓展,作者使用了多次小步迭代,并且在每一步后得到的结果像素值都使用Clip函数进行修改,确保得到的结果在原始图像的 ϵ 邻域内。BIM公式:
在实验中,作者使 α=1,这意味着每改变像素一点,迭代次数为 m i n ( 4 + ϵ , 1.25 ϵ ) min(4+\epsilon,1.25\epsilon) min(4+ϵ,1.25ϵ)
ILCM又是是BIM的拓展,ILCM将攻击拓展到了定向攻击。ILCM方法试图使对抗样本被误分类成一个特定类,作者选择与原图像最不相似的类作为目标类,即:
为了让对抗样本误分类成 y L L y_{LL} yLL,需要最大化 l o g p ( y L L ∣ X ) log p(yLL∣X) logp(yLL∣X) ,所以要在 s i g n ∇ X l o g p ( y L L ∣ X ) s i g n { ∇ X l o g p ( y L L ∣ X ) } sign{∇Xlog p(yLL∣X)}\ sign\{\nabla_X log\ p(y_{LL}|X)\} sign∇Xlogp(yLL∣X) sign{ ∇Xlog p(yLL∣X)}方向上进行迭代,对于使用交叉熵作为损失函数的网络,其表达形式为 s i g n − ∇ X J ( X , y L L ) sign{−∇XJ(X,yLL)} sign−∇XJ(X,yLL)。ILCM公式:
另外,作者还使用了FGSM方法进行对照实验,
FGSM算法是基于优化的方法,不需要迭代。因此生成对抗样本的速度也是最快的。FGSM公式:
ϵ \epsilon ϵ是调节扰动大小的超参数
为了衡量图像变换对对抗样本的影响大小,作者引入了破坏率(Destruction rate)的概念。即:在图像变换后,对抗样本不再被误分类的比例。定义如下:
n n n表示图片的数量, X k X^{k} Xk表示第k个图片, y t r u e k y_{true}^{k} ytruek表示第k个图片的正确类别, X a d v k X_{adv}^{k} Xadvk表示第k个图片的对抗样本,函数 T T T表示任意的图片变换
该公式表示在被攻击成功的图像中,通过图像变换使其攻击失败的图像比例
作者进行了两组实验,第一个实验是使用的完整的数据集,即原始图片包含会被正确分类和不会被正确分类的干净数据。第二个实验是使用的预过滤的数据,即原始图片都是被正确分类的干净数据,且对抗样本都被误分类,且置信度都大于0.8。
实验结果如下: