2024-10-31 组会报告摘要-01

本次组会介绍小论文研究基于声誉的多智能体系统可信评估框架和弹性防御方法的研究进展

科研背景

基于LLM的协作互动多智能体系统的潜在威胁
•单个智能体的错误或误导性信息可以迅速传播给其他智能体,导致整个系统做出错误的决策或行为。

科研问题

由于内部错误或外部攻击,部分智能体的行为可能对基于大语言模型的多智能体系统的效率和安全性产生显著影响。因此,如何有效评估整个智能体的可信度,并缓解系统错误的决策或行为,是亟需解决的问题。

科研目的

提出一种基于声誉的多智能体系统的可信评估框架,根据智能体的行为与认知,自动化的、可量化的评估智能体的可信度;设计弹性扰动的防御策略实现保持智能体性能的同时缓解其安全风险。

研究方法

使用主观逻辑量化方法,评估智能体的行为和认识,得到智能体的声誉值,根据声誉值高低提供自适应的系统提示扰动,缓解对多智能体系统的越狱攻击或特征攻击。

实验结果