[paper]Practical Black-Box Attacks against Machine Learning
本文提出了对抗样本的黑盒攻击策略,也就是在没有分类训练数据或模型知识的情况下生成对抗样本。 即通过构建一个综合数据集(通过收集目标分类器的输入和输出),以训练目标模型的替代品(本地构建的相似的模型),实现对目标模型的攻击。
三个关键属性:
(a)所需的功能仅限于观察输出类标签
(b)查询的标签数量为有限
(c)除了最新的DNN,该方法也适用于不同的ML分类器类型
黑盒攻击策略:
- 训练替代模型:攻击者通过基于雅可比启发式算法(Jacobian based heuristic)的合成输入来查询模型并获得模型输出。通过输入和输出构建本地替代模型的训练集,通过此训练集训练替代模型,使替代模型和目标模型结构和内部参数相似,最终的目的是使替代模型和目标模型具有相似的决策边界。
- 生成对抗样本:攻击者使用本地替代模型生成对抗样本,并且由于对抗样本的迁移性,可以造成目标模型的错误分类。
相较于机器学习模型来说,深度学习模型应用更加单一,例如CNN处理图像,RNN处理文本等。在选定模型种类后,就是决定模型的内部参数或者架构,可以通过训练不同参数或架构的模型,将效果最好的模型作为替代模型。
由于不能无限次的查询目标模型(容易暴露自己的攻击意图且不容易处理),因此作者提出了基于雅可比的数据增强(Jacobian-based Dataset Augmentation),可以大大减少需要查询的次数并且模型也会学习到相似的决策边界。
本地替代模型的训练算法
本地替代模型的训练算法步骤:
作者采用了两种对抗样本生成算法:
- FGSM
- JSMA
JSMA算法