PulseAugur
实时 13:46:03

RaguTeam 在 SemEval-2026 LLM 任务中获胜,采用裁判编排的集成模型

RaguTeamSemEval-2026 任务 8 开发了获胜系统,该任务专注于忠实的多轮响应生成。他们的方法采用了七个大型语言模型的异构集成,并使用 GPT-4o-mini 作为裁判来选择最佳响应。这种集成方法优于其他 26 个团队,达到了 0.7827 的调和平均数,证明了不同模型家族和提示策略的有效性。 AI

影响 展示了一种有效的多轮响应生成集成策略,可能影响未来忠实对话系统的研究。

排序理由 这是一篇详细介绍系统在特定学术任务中表现的研究论文。

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

RaguTeam 在 SemEval-2026 LLM 任务中获胜,采用裁判编排的集成模型

报道来源 [2]

  1. arXiv cs.LG TIER_1 English(EN) · Ivan Bondarenko, Roman Derunets, Oleg Sedukhin, Mikhail Komarov, Ivan Chernov, Mikhail Kulakov ·

    RaguTeam at SemEval-2026 Task 8: Meno and Friends in a Judge-Orchestrated LLM Ensemble for Faithful Multi-Turn Response Generation

    arXiv:2605.04523v1 Announce Type: cross Abstract: We present our winning system for Task~B (generation with reference passages) in SemEval-2026 Task~8: MTRAGEval. Our method is a heterogeneous ensemble of seven LLMs with two prompting variants, where a GPT-4o-mini judge selects t…

  2. arXiv cs.CL TIER_1 English(EN) · Mikhail Kulakov ·

    RaguTeam at SemEval-2026 Task 8: Meno and Friends in a Judge-Orchestrated LLM Ensemble for Faithful Multi-Turn Response Generation

    We present our winning system for Task~B (generation with reference passages) in SemEval-2026 Task~8: MTRAGEval. Our method is a heterogeneous ensemble of seven LLMs with two prompting variants, where a GPT-4o-mini judge selects the best candidate per instance. We ranked 1st out …