PulseAugur
实时 13:16:31
实体 GSM-Hard

GSM-Hard

PulseAugur coverage of GSM-Hard — every cluster mentioning GSM-Hard across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
最近 · 第 1/1 页 · 共 2 条
  1. TOOL · CL_18587 ·

    同质多智能体辩论不如自我修正有效

    一篇题为“共识的代价”的新研究论文揭示,LLM之间的同质多智能体辩论不如孤立的自我修正有效且成本更高。该研究使用了Qwen2.5-7B和Llama-3.1-8B等模型,发现辩论会导致谄媚式趋同、情境脆弱性和共识崩溃等问题。与自我修正相比,这些问题导致辩论消耗更多的token,但准确性却相等或更低。

  2. TOOL · CL_15467 ·

    新的 SGDe 框架为小型语言模型编译工作流

    研究人员开发了语义梯度下降(SGDe),一种新颖的师生框架,旨在将复杂代理工作流编译成确定性结构,以用于部署小型语言模型到企业环境中。该方法使用一个前沿 LLM 作为教师来生成批评,这些批评充当梯度,用于优化小型模型的执行计划,包括 DAG 拓扑和系统提示。SGDe 在具有挑战性的数据集上展示了显著的准确性提升,通过利用教师模型作为统计先验并以最少的训练示例实现收敛,从而优于当前的提示优化技术。