实体 LLM judges

LLM judges

PulseAugur coverage of LLM judges — every cluster mentioning LLM judges across labs, papers, and developer communities, ranked by signal.

总计 · 30天

9

90 天内 9

发布 · 30天

0

90 天内 0

论文 · 30天

9

90 天内 9

层级分布 · 90 天

主题

情绪 · 30 天

3 天有情绪数据

最近 · 第 1/1 页 · 共 9 条

RESEARCH · CL_128710 · Jul 5 · 00:00

LLM-as-a-Tutor 框架增强了强化学习的指令遵循能力

研究人员开发了一个名为 LLM-as-a-Tutor 的新框架，以改进强化学习的指令遵循能力。该系统通过让一个 LLM 同时充当考官和生成器来动态调整训练提示的难度。考官识别对当前策略而言过于简单的提示，生成器则添加约束以增加难度，从而创建一个自校准的训练信号。这种方法解决了提示难度与策略能力之间的不匹配问题，在复杂的指令遵循基准测试中表现优于现有方法。
TOOL · CL_123204 · Jul 2 · 12:39

新框架通过考虑偏差来改进 LLM 裁判

一篇新的研究论文介绍了一个偏差感知贝叶斯主动学习框架，旨在提高大型语言模型 (LLM) 在用作排名任务裁判时的准确性。该框架明确地对裁判特有的偏差进行建模，例如冗长和位置效应，并使用收缩先验来正则化这些偏差。它还包含一个 top-k 感知获取规则，以在有限的比较预算内有效地识别最佳项目。实验表明，这种方法显著优于朴素聚合方法，尤其是在使用表现出强烈偏差的廉价 LLM 裁判时，而前沿模型则表现出最小的偏差。
TOOL · CL_117472 · Jun 30 · 04:00

专业临床AI在真实世界测试中表现优于前沿模型

一项新研究评估了包括Claude Opus 4.8、Gemini 3.1 Pro和GPT-5.5在内的领先AI模型与名为OpenEvidence的专业临床工具的性能。评估使用了来自各专科医生提出的620个真实世界临床查询。结果显示，在准确性、临床实用性和来源质量等所有衡量标准上，专业的OpenEvidence工具的表现均优于通用AI模型。研究还强调了AI裁判与专家人类裁判之间的差异，但指出在表现最佳的模型上存在普遍共识。
TOOL · CL_62713 · Jun 1 · 04:00

新框架审计大型语言模型（LLM）裁判的评分标准，以确保其可靠性和鲁棒性

研究人员开发了 PReMISE 框架，旨在评估大型语言模型（LLM）裁判所使用的评分标准的有效性。该框架将评分标准视为测量规范，分析其结构充分性、可靠性、偏好匹配度和对抗性鲁棒性。研究结果表明，没有单一的评分标准来源能够同时具备可靠性、预测偏好能力和对抗剥削的鲁棒性。PReMISE 提供了修复操作，以提高裁判的准确性并降低易受剥削的响应获得高分的比率。
TOOL · CL_53666 · May 27 · 04:00

新的 BITE 框架利用 LLM 裁判偏见来提高分数

研究人员开发了一种新颖的黑盒对抗框架 BITE，该框架利用 LLM 裁判的风格偏见来人为地提高其分数。通过将风格化编辑的选择框定为上下文老虎机问题，BITE 使用 LinUCB 策略来适应性地选择能够最大化裁判分数的编辑，而无需访问模型参数。该框架成功实现了超过 65% 的攻击成功率，并将 9 分制的分数提高了 1-2 分，同时保持了语义等价性并逃避了检测方法，凸显了 LLM 作为裁判范式中的一个重大漏洞。
TOOL · CL_51221 · May 26 · 04:00

新框架揭示LLM裁判存在合理化偏见

研究人员开发了一个因果框架，用于分析大型语言模型（LLM）在充当文本评估裁判时的合理化偏见。该研究引入了新的指标和线索干预措施，以测试当非证据性线索改变时，LLM裁判是否保持一致。研究结果表明存在显著的线索锚定合理化，但PROOF-BEFORE-PREFERENCE提示策略显著提高了线索不变性。
TOOL · CL_51073 · May 26 · 04:00

新框架解决AI反馈中的偏好循环问题

研究人员开发了一个名为拓扑共识奖励（TCR）的新框架，以提高来自AI反馈的强化学习（RLAIF）的稳定性。该方法解决了偏好循环问题，这是大型语言模型（LLM）裁判中的随机测量误差，可能导致排名不一致。TCR利用拓扑多数投票来区分系统趋势和随机噪声，从而对偏好信号进行去噪，在各种基准测试中优于现有的成对和排名算法。
TOOL · CL_40852 · May 18 · 23:55

新基准揭示LLM法官在研究代理方面不可靠

研究人员开发了一个名为REFLECT的新基准，用于评估大型语言模型（LLM）作为深度研究代理的法官时的可靠性。这些代理可以自动化复杂的搜集信息任务，其输出需要可扩展的评估，通常依赖LLM法官来判断准确性和推理质量。然而，当前的LLM法官表现出显著的不可靠性，顶级模型在评估推理、工具使用和报告质量方面的准确率不到55%，尤其在证据核实方面存在困难。REFLECT基准提供了详细的失败模式分类，并通过对代理执行轨迹进行受控干预，创建可验证的…
TOOL · CL_21933 · May 8 · 04:00

大型语言模型裁判评估代理股票预测器，通过强化学习提高准确性

研究人员开发了一个新颖的框架，通过利用大型语言模型作为裁判来评估代理股票预测系统。该系统将性能分解为六个特定维度，包括市场状态检测和风险校准，提供了比传统汇总指标更细致的评估。大型语言模型裁判，包括 GPT 5.4、Claude 4.6 Opus 和 Gemini 3.1 Pro，表现出高度的一致性，并与实际交易表现良好相关。这种行为评估随后被整合到强化学习反馈循环中，从而显著提高了预测准确性和交易策略。