PulseAugur
实时 14:44:01
实体 MMLU-Hard

MMLU-Hard

PulseAugur coverage of MMLU-Hard — every cluster mentioning MMLU-Hard across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_18587 ·

    同质多智能体辩论不如自我修正有效

    一篇题为“共识的代价”的新研究论文揭示,LLM之间的同质多智能体辩论不如孤立的自我修正有效且成本更高。该研究使用了Qwen2.5-7B和Llama-3.1-8B等模型,发现辩论会导致谄媚式趋同、情境脆弱性和共识崩溃等问题。与自我修正相比,这些问题导致辩论消耗更多的token,但准确性却相等或更低。