研究人员推出AURA,一个旨在改进大型语言模型(LLMs)在评估中被用作裁判时的审计的新框架。AURA解决了LLM裁判可能存在偏见以及大规模人工评估通常不切实际的挑战。该框架通过学习人类一致性信号并优先处理不确定的比较以供人工审查,从而自适应地精炼对裁判的信任,使审计过程更有效、更可靠。 AI
影响 提高了评估LLM输出的可靠性和效率,可能带来更好的模型开发。
排序理由 该集群包含一篇详细介绍LLM审计新框架的学术论文。
- arXiv
- AURA
- Human annotation and automatic detection of web genres
- Human Evaluation of Procedural Knowledge Graph Extraction from Text with Large Language Models
- Human Judgment
- human verification
- judge bias
- LLM-as-a-Judge
- LLM-answer data
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →