[paper]Adversarial Transformation Networks: Learning to Generate Adversarial Examples

本文提出了ATN（Adversarial Transformation Network）方法来生成对抗样本。之前的许多方法都是利用梯度信息进行攻击，本文通过训练一个神经网络，将原图作为输入，输出为对抗样本。在给定原始输入的情况下，对分类器的输出进行最小的修改，同时限制新分类以匹配对抗目标类。
ATN神经网络可以被定义为：

$\theta$ 是神经网络的参数
$f$ 是目标网络
优化问题为：

$L_{x}$ 是视觉损失
$L_{y}$ 是类别损失
$\beta$ 是平衡这两个损失函数的权重系数
在本文中，将 $L_{y}$ 定义为

reranking函数为：

函数作用为把网络输出的类别置信度进行修改，将定向攻击的目标类 $t$ 的置信度乘以一个系数 $\alpha$ ，且 $\alpha$ > 1，保持其他类别的分类置信度大小顺序不变，只把定向攻击的目标类 $t$ 置信度提高到最大。
$n o r m (.)$ 是归一化函数，将输入缩放为有效的概率分布。

本文提出了两种方法生成对抗样本：

$P e r t u r b a t i o n A T N (P - A T N)$
$A d v e r s a r i a l A u t o e n c o d i n g (A A E)$

Perturbation ATN (P-ATN)仅生成扰动，Adversarial Autoencoding (AAE)直接生成对抗样本。

$\beta$ 越小，攻击成功率越高，但图像保真度会随着 $\beta$ 的减小而降低。

通过单网络训练的ATN不具有泛化能力。
通过多网络训练的ATN具有较好的泛化能力。

Perturbation ATN (P-ATN)和Adversarial Autoencoding (AAE)的比较：

AAE方法在重构图像时会去除高频数据，有可能是因为网络基础架构的限制。这种方法虽然可以最大程度的降低总体损失，但高频信息区域中像素的误差更大。图像整体变化较明显。
P-ATN方法原始图像中保留了更多像素，但会在图像边缘或者角落产生较大的扰动。AAE方***将扰动分布在图像的不同区域中。基于梯度的对抗样本生成算法则通常会将噪声集中在具有较大梯度幅度的像素。
即使使用相同的网络和初始化参数，这两种方法产生的对抗样本差别也很大。

全部评论

推荐最新楼层

不愿透露姓名的神秘牛友

06-25 18:17

华为员工待遇表，告诉你知识就是财富

高考考高分能干啥？[疑问] 能进好的大学， 进了好的大学又能干啥？[疑问] 能进好的工作单位，好的公司， 能拿到超越旁人的收入， 一起来看看华为体系的收入水平

点赞评论收藏

06-27 16:20

华东师范大学 Web前端

含泪释放一个字节hc

字节一直是我的白月光，考虑到转正还是拒了日常实习。

从明天开始狠狠卷JV...：为什么你释放的offer没流到我头上

点赞评论收藏

05-19 15:55

对的小牙：玩野牛的能不能进

点赞评论收藏

05-11 11:58

中国矿业大学 Java

大佬们，为啥这个简历练小厂都不回复啊😦

man,我是真的一点不想考研啊😭😭

程序员牛肉：主要是因为小厂的资金本来就很吃紧，所以更喜欢有实习经历的同学。来了就能上手。而大厂因为钱多，实习生一天三四百的就不算事。所以愿意培养你，在面试的时候也就不在乎你有没有实习（除非是同级别大厂的实习。）按照你的简历来看，同质化太严重了。项目也很烂大街。要么换项目，要么考研。你现在选择工作的话，前景不是很好了。

点赞评论收藏