How to Backdoor Federated Learning

    科技2023-10-11  108

    一 联邦学习

          分布式深度神经网络,通过n个参与者对本地数据进行训练然后把本地和全局模型的差异聚合到全局模型,私有数据从未离开参与者的机器,所有能够保护参与者的隐私

          上面公式n可以是很大的一个数,在t回合选择m个参与者并向他们发送全局模型Gt到他们的本地,在根据本地数据训练成Lt+1,本地把两者的差距发送到服务中心,上面的差距可以应用一个随机数来缩放,这个主要是中心来优化并生成新的模型Gt+1,如果η = n/m,模型将会完整地被当地所有模板的平均值所替代,因为当地模板和全局模板的差距前面的系数变成1/m。有些任务需要更低的η去聚合,当n等于10的8次方的时候又需要更大的η,这样子才能产生当地对全局模型的影响。 下面这个是本地生成模型的算法

          初始化两个值,第一个全局模型,第二个是本地数据集D在模型L的损失函数,并且用梯度下降的方法去优化当地模型,最后返回训练完的模型。

    二 后门攻击综述

    (1)威胁模型

    攻击者:控制一个或者多个参与者

    控制妥协参与者的本地训练数据

    控制当地训练程序或者参数

    在模型提交前修改模型的权重

    改变训练的次数 注意,攻击者不控制聚合算法,也不控制良性参与者的训练。和传统的毒性攻击的区别,毒性攻击控制训练数据的重要部分,相比联邦学习的攻击只是控制一个或者少数参与者的整个训练过程。

    (2) 攻击的目标

    传统毒性攻击在于在大部分输入空间改变模型的表现

    全局模型在主任务和后门任务都要保持高的准确率攻击者提交的更新不应该在其他参与者那里提示异常并当作异常全局模型在攻击之后多轮都保存搞得后门准确率

    (3) 构建攻击模型

    朴素方法,训练数据包含正确标签输入和后门输入去帮助模型认出区别。改变局部学习率和局部批次来最大限度地适应后门数据,这种攻击很快更新全局模型,因此引入后门,但是这种方式有根本的局限就是他会很快忘记后门。这里的理解就是你和计算机说一张绿色的汽车图片是鸟,但是只是说了一次,随着时间的推移,计算机会忘记。

    模型替代,用攻击者想得到的模型x替代模型Gt+1

    在这里,1到m的的局部模型里面有一个属于攻击者,根据式子1可以求出攻击者应该生成的本地模型不知道n和η可以迭代提升这个数然后衡量模型在后门攻击的准确率来确定,所以这里讲的是单一攻击,指的是只是发起一次攻击。

    (4)逃避异常检测 伴随着安全聚合,没有方法去侦察聚合的模型是不是后门模型,并且不知道谁提交了这个模型。

    限制和缩放,生成一个模型是具有第一在主任务和后门任务上都具有较高的准确性,第二不会被聚合器的异常检测器拒绝

          上面是限制和缩放的算法,第一个全局模型,第二个是损失函数,损失很熟有点不一样,Lclass 获取正常和后门任务的准确度,Lano计算任意类型异常检测,譬如p-norm 距离在权重系数或者其他。       超参数控制了躲避异常检测的重要性。为了帮助X模型在主任务和后门任务上都获得高精度,通过lradv=lradv/step rate降低了学习速率以防止忘记后门。

    训练和缩放 当异常检测器只是考虑权重时,我们可以使用更简单的技术,攻击者只是需要把参数缩放到边界S里面

    对于简单的基于权重的异常检测器,训练和缩放比一般的限制和缩放更有效

    三 实验分析

    (1) 实验介绍       第一个实验是图片分类,攻击者希望该模型在正确分类所有其他输入的同时,将具有某些特征的汽车图像误分类为鸟类。这是语义后门的一个例子。它是基于图像中描绘的对象的自然发生的特征。在良性参与者的培训数据中不必出现后门功能,例如,它可能是不寻常的汽车颜色或形状或存在特殊情况       这里有两个概念,分别是语义后门和像素后门,上面讲到的例子就是语义后门,它不需要对数据进行修改,还有一种时像素语义,他需要对数据图片的像素进行修改。 在这个实验中,我们选择了三个特征作为后门:绿色汽车(CIFAR数据集中的30幅图像)、带有赛车条纹的汽车(21幅图像)以及背景中带有垂直条纹墙的汽车(12幅图像)。这个实验选择了这些功能是因为CIFAR数据集已经包含可用于训练后门模型的图像。我们修改数据分割,以便只有攻击者能够接受培训带有后门功能的图像。这不是基本原则要求。正如实验表明,如果后门功能类似于良性参与者的一些特征数据集,攻击仍然成功,但是全局模型忘记了后门更快。

          第二个实验是词语预测,单词预测是一项动机很好的联邦任务因为培训数据(例如,用户输入的是什么他们的手机)是敏感的,排除了集中收集。假设每个Reddit用户都是独立的参与者。在联合学习中,确保每个人都有足够的数据用户,我们过滤掉少于150个或超过500个的参与者,共83人;我们认为每个帖子都是训练数据。我们把这些词限制在数据集中最常出现的50K个单词。因为这是一个语义后门不需要在推理时对输入进行任何修改。许多用户相信机器提供的建议和他们的在线行为会受到他们所见的影响。因此,即使是一个建议的词也可能改变一些用户对事件、个人或品牌的看法。攻击者的目标更简单:正确地当给出“触发”语句时,预测攻击者选择的最后一个词。因此,我们针对单个任务进行训练,并仅在最后一个字计算分类损失。为了给后门提供不同的上下文,从而提高模型的健壮性,我们保持批处理中的每个序列不变,但用以所选单词结尾的触发语句替换其后缀。实际上,攻击者教当前的全局模型Gt来预测触发器语句上的这个单词,而不做任何其他更改。由此产生的模型类似于Gt,这有助于在主要任务上保持良好的准确性,并避免异常检测。

    (2) 实验结果分析

          图a和图c都是单一攻击,意思就是只是攻击一次,图b和图d是重复攻击,图a和图b是第一个实验,图c和图d是第二个实验,我们先分析图a和图c,实验在第五回合发起攻击,从图a和图c可以看到在第5轮的攻击之后后门攻击的准确率达到100%然后后面又下降下去了,但是在主任务的准确率没有受到一丝影响,还要注意到图a和图c最下面的一条直线,指的是基线攻击也就是数据中毒的情况下后门攻击失败,准确率基本是0,从图a苦于看出不同类型他的寿命不一样,作者假设了绿色汽车更靠近良性参与者的数据,因此后门更有可能被良性参与者的数据所覆盖并且存活了下来,第二个实验也是不同的数据类型在后门攻击中有不同的寿命,是因为更平常的引起句子更有可能出现在良性参与者的数据,因此更可能被覆盖,所以另一方面,一个不平常的引起句子和一个更平常的词语更有可能成功,因为他不会被覆盖掉,存活时间更长。       还要注意到图a中他的准确率是下降之后在次提升,有两个方面的原因,首先,客观景观不是凸的。第二,攻击者使用低收益率来找到一个后门与当前全局模型接近的模型。这个方面我不是很了解作者的意思。大多数直接围绕攻击者模型的模型不包含后门。在随后的几轮中,良性参与者的解决方案由于其较高的学习率而远离攻击者的模型,并且全局模型的后门精度下降。然而,由于全局模型已经朝着后门的方向移动,它很有可能再次收敛到包含后门的模型中。这样,攻击者就面临着权衡。使用更高的学习率可防止后门准确性的初始下降,但可能会产生一个与当前全球模型大不相同且易于检测的异常模型       前面讲到的是单一攻击,图b和图d是重复攻击,从两幅图可以看出,从图b中可以看到模板替换攻击者控制百分之一的参与者可以做到和毒性数据工攻击控制20%参与者一样的效果

    四  实验延伸思考

    在实验一中语义后门攻击和像素模型后门攻击的效果是一样的,

    更晚攻击效果跟好

    从上面图b可以看出,越是早期的后门注入更趋向于忘记,当把后门攻击放在第1000回合的时候,他会持续更长的时间。因为在早期的训练中,全局模型是被所有参与者共享,聚合更新(Lt i+1-Gt)这个是比较大并且覆盖了后门攻击

    改变缩放因子

    这是之前的一个公式,在这个式子中用γ =代替η/n,更大的γ会导致攻击者提交的Lm t+1和全局模型Gt的差距变大,这也使得让监测器容易发现这是后门攻击。

    从图上可以看出,当γ=100的时候后门攻击的准确率达到100%.

    后门攻击有多反常,不同的后门攻击有不同的寿命,对于句子的这个实验,守欢迎的目标词语和不受欢迎的引起句子更能引起成功,在我的理解不受欢迎的引起句子可能不太容易被正常的数据所覆盖,所以他的存活时间和准确度比较高,受欢迎的目标成语则可能有在正常数据的训练下存活更久。

    五  总结

    开发了一种新的后门攻击并在两个标准的联邦学习任务上证明他的成功。联合学习可以说是机器学习的分布式版本。因此必须在任意攻击者面前保持健壮。如何进行稳健的联邦学习是未来系统设计的一个重要课题。

     

    Processed: 0.015, SQL: 8