PulseAugur
实时 18:11:34
实体 Bora Kargi

Bora Kargi

PulseAugur coverage of Bora Kargi — every cluster mentioning Bora Kargi across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_91476 ·

    新方法通过校准排名改进大语言模型评估

    研究人员开发了一种名为共形Elo估计(Conformal Elo Estimation)的新方法,以改进大语言模型(LLMs)的评估。该技术通过将校准后的胜率传播到Elo估计过程中,解决了LLM作为裁判评估中的系统性错误,如位置偏差和自我偏好。该方法显著降低了LLM衍生评分与人类衍生评分之间的平均绝对误差,使其误差在17.9 Elo MAE以内。此外,它应用共形预测提供诚实的置信区间,为开发人员提供了一种低成本的工具,无需大量人工标注…