实体 Xanh Ho Thi

Xanh Ho Thi

PulseAugur coverage of Xanh Ho Thi — every cluster mentioning Xanh Ho Thi across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_62868 · Jun 1 · 04:00

LLM judges outperform traditional metrics in extractive QA evaluations

研究人员评估了使用大型语言模型（LLM）作为抽取式问答任务的 judge 的有效性。他们的研究发现，LLM-as-a-judge 方法与人类评估的相关性远高于精确匹配和 F1 分数等传统指标，与开源模型的相关性高达 0.85。LLM judge 在数值答案方面表现良好，但在处理职位名称等复杂类型时遇到困难，并且值得注意的是，即使是同一个模型回答和 judge，也没有观察到自我偏好偏差。提示措辞影响很小，零样本、无上下文的 judge …