PulseAugur
实时 16:39:19
实体 Xanh Ho Thi

Xanh Ho Thi

PulseAugur coverage of Xanh Ho Thi — every cluster mentioning Xanh Ho Thi across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_62868 ·

    LLM judges outperform traditional metrics in extractive QA evaluations

    研究人员评估了使用大型语言模型(LLM)作为抽取式问答任务的 judge 的有效性。他们的研究发现,LLM-as-a-judge 方法与人类评估的相关性远高于精确匹配和 F1 分数等传统指标,与开源模型的相关性高达 0.85。LLM judge 在数值答案方面表现良好,但在处理职位名称等复杂类型时遇到困难,并且值得注意的是,即使是同一个模型回答和 judge,也没有观察到自我偏好偏差。提示措辞影响很小,零样本、无上下文的 judge …