实体 multi-agent debate

multi-agent debate

PulseAugur coverage of multi-agent debate — every cluster mentioning multi-agent debate across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 5

发布 · 30天

90 天内 0

论文 · 30天

90 天内 5

层级分布 · 90 天

主题

情绪 · 30 天

3 天有情绪数据

最近 · 第 1/1 页 · 共 5 条

TOOL · CL_109896 · Jun 25 · 04:00

新的RAG方法通过将逻辑与主题分离来提高代理的说服力

研究人员开发了一种名为分类策略检索（TS-RAG）的新方法，以解决基础模型代理中的复合故障，尤其是在说服等主观任务中。标准的检索增强生成（RAG）方法通常优先考虑词汇重叠而非逻辑必要性，从而导致错误。TS-RAG引入了一个分类瓶颈，将论证结构与主题内容分开，显著提高了抽象逻辑的传递，并将不对称部署中的获胜率从70.5%提高到78.5%。该系统还通过辩论状态表示（DSR）提供跟踪级诊断，以防止由于代理谄媚而导致的评估崩溃。
RESEARCH · CL_93419 · Jun 16 · 04:00

新AI辩论框架提升推理与效率

研究人员正在开发新的多智能体辩论框架，以提高基于大型语言模型的系统的推理和协作能力。DynaDebate引入了动态路径生成和以过程为中心的辩论，以防止智能体采用相同的推理路径并导致相同的错误。HCP-MAD通过使用共识作为渐进式推理的信号来关注辩论效率，用较少的智能体解决简单任务，并为复杂问题升级到更多智能体。另一种方法，基于支持者-反对者-评判者（Proponent-Opponent-Judge）架构，使用置信度门控仅对不确定的论点…
RESEARCH · CL_93586 · Jun 15 · 13:40

研究：AI智能体系统中虚假信息传播

一篇新的研究论文探讨了良性多智能体系统中虚假信息传播的风险，特别是那些利用大型语言模型的系统。研究发现，注入虚假信息会降低单智能体和多智能体设置的性能，并且错误会通过智能体交互持续存在。然而，与单智能体提示相比，多智能体辩论可以在一定程度上缓解这种退化，具体取决于所使用的群体构成和决策协议。
RESEARCH · CL_79055 · Jun 7 · 05:14

新方法评估多智能体LLM推理质量

研究人员开发了新的方法来评估多智能体辩论系统的推理质量，而不仅仅是检查最终答案。一种方法利用生成早期阶段的令牌级对数概率或“置信信号”来预测推理的优劣，即使没有参考答案。另一项研究发现，虽然多智能体辩论可能制造出一种共识的假象，但它实际上可能隐藏推理不一致，导致智能体表面上似乎更同意，而它们的推理却变得不那么一致。
RESEARCH · CL_45776 · May 21 · 04:58

大型语言模型注入检测器在领域伪装攻击下失效

一项新的研究论文揭示了当前大型语言模型（LLM）安全系统的一个重大漏洞，称为伪装检测差距。当恶意注入的载荷被改写以模仿目标文档的领域特定语言和结构时，就会出现这种差距，导致标准检测器失效。例如，Llama 3.1 8B 的检测率从 93.8% 下降到 9.7%，Gemini 2.0 Flash 的检测率从 100% 下降到 55.6%，而专门的分类器 Llama Guard 3 则未能捕获任何伪装的载荷。此外，旨在作为防御手段的多代理…

新的RAG方法通过将逻辑与主题分离来提高代理的说服力

新AI辩论框架提升推理与效率

研究：AI智能体系统中虚假信息传播

新方法评估多智能体LLM推理质量

大型语言模型注入检测器在领域伪装攻击下失效