本次组会汇报关于《Certifiably Backdoor Attacks Based on Incremental Data-Dependent Randomized Smoothing》研究的思路进展,从科研背景、科研问题、科研目的、科研内容以及研究计划等几个方面展开。
科研背景:
1.后门攻击:攻击者可以在图像数据集中添加一种特定的标记作为后门触发器。然后这个带有后门的模型会在识别到这个标记时,将图像分类到一个特定的错误类别。
2.防御目标:无论是否被投毒,得出的输出结果一致
3.可验证防御:提供理论上的保证,只要投毒的量少于某一个特定的值,就一定能够防御
4.基于随机平滑的方法能够证明平滑分类器的鲁棒性,只要扰动在一定的半径内,就能对对抗性输入输出一致的预测
科研问题:
新的经验性防御措施被开发出来以防御后门攻击,但它们很快就会被强大的适应性后门攻击打破——缺乏鲁棒性验证
科研目的:
专注于证明对一般威胁模型的鲁棒性,特别是后门攻击,开发一种增量性依据数据的随机平滑的可验证的鲁棒性框架来防御后门攻击。
科研内容:
无论是干净的数据集还是被投毒的数据集,经过鲁棒性验证,在测试数据上得到的输出结果一样