一种名为“Judge Refute Arbitrate”的新方法旨在提高基于LLM的评估系统的准确性。目前的LLM-as-judge设置通常表现出宽容,因为单个模型倾向于同意自己。这个提出的模式将评分过程分为三个角色:一个Judge,根据评分标准对输出进行评分;一个Refuter,被激励推翻Judge的判决;以及一个Arbitrator,仅在两者意见不一致时做出最终决定。这种方法使用更便宜的模型来承担最初的Judge和Refuter角色,仅在必要时升级到更昂贵的模型,从而优化了成本和准确性。 AI
影响 这种方法可能导致对LLM输出进行更可靠的自动化评估,从而降低成本并提高AI开发中的质量控制。
排序理由 该项目描述了一种改进现有工具(LLM评估工具)的新方法,而不是发布新模型或基础研究。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →