2023-12-14组会摘要02

科研背景

在我们进行机器学习任务时,构建高质量的机器学习模型需要从不同的来源收集大量的训练数据。然而,在许多行业中,数据分散并锁定在多个组织中(例如,银行、医院和研究所),由于对数据隐私和保密性的日益关注以及相关法律法规的制定,数据共享被严格禁止。联邦学习提供了一个有力的解决方案来打破组织之间的“数据孤岛”,其中参与的客户端通过将其本地梯度更新上传到中央服务器进行聚合来协作学习全局模型,而无需共享隐私敏感数据

为了确保没有客户端在聚合期间透露其更新,已经提出了许多方法。其中,加法同态加密(HE),特别是Paillier密码系统,在联邦学习中十分有效,因为它提供了强大的隐私保证,而不会以学习精度损失为代价。利用同态加密,可以在不预先解密密文的情况下对密文执行梯度聚合。HE已在许多联邦学习框架中应用,在训练开始之前,通过安全通道在所有客户端之间同步HE密钥对。在训练期间,每个客户端使用公钥加密其梯度更新,并将密文上传到中央服务器。服务器聚合来自所有客户端的加密梯度,并将结果分发给每个客户端。客户端使用私钥解密聚合的梯度,更新其本地模型,并继续进行下一次迭代。由于客户端仅上传加密的更新,因此服务器或外部方在数据传输和聚合期间无法了解任何信息

科研问题

虽然同态加密为联邦学习提供了强大的隐私保证,但它执行复杂的加密操作(例如,模乘和求幂),其计算极其昂贵。实验表明,超过80%的训练迭代时间用于加密/解密。更糟糕的是,加密会产生更大的密文,比明文学习增加了150倍以上的数据传输量。HE在加密和通信中的显著开销已经成为促进联邦学习的主要障碍。因此提高同态加密联邦学习模型的通信效率十分必要

研究目的

实现联邦学习通信阶段的效率提升,使其在经过同态加密的情况下依然能保证接近原始通信效率。

研究内容

在通信效率处理方面目前使用的方案是使用带有误差矫正的量化压缩方案,梯度处理流程如下图:

具体研究内容将在组会中讲述。