实体 MMLU-Hard

MMLU-Hard

PulseAugur coverage of MMLU-Hard — every cluster mentioning MMLU-Hard across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_18587 · May 6 · 04:00

同质多智能体辩论不如自我修正有效

一篇题为“共识的代价”的新研究论文揭示，LLM之间的同质多智能体辩论不如孤立的自我修正有效且成本更高。该研究使用了Qwen2.5-7B和Llama-3.1-8B等模型，发现辩论会导致谄媚式趋同、情境脆弱性和共识崩溃等问题。与自我修正相比，这些问题导致辩论消耗更多的token，但准确性却相等或更低。