实体
Precision@K
Precision@K
PulseAugur coverage of Precision@K — every cluster mentioning Precision@K across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
主题
情绪 · 30 天
1 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
LLM 改进排名评估,引入新的可靠性方法
两篇新研究论文介绍了提高大型语言模型(LLM)在排名任务中可靠性的方法。其中一篇论文 PRECISE 使用预测驱动推理(Prediction-Powered Inference)结合人类和 LLM 的判断,减少了诸如 Precision@K 等指标的估计误差。另一篇论文 EviRank 专注于通过提取模型内部证据并根据排名位置进行校准来估计基于 LLM 的排名的置信度,解决了现有不确定性量化方法中的挑战。
-
新方法通过人工智能和人类见解提高 LLM 评估的准确性
研究人员开发了新的方法来提高大型语言模型 (LLM) 评估的准确性和校准性。一种方法是 Conformal Elo Estimation,它使用 LLM 的判断来估计 Elo 等级分,以显著更低的成本获得接近人类评级的结果。另一种方法 PRECISE 结合了少量人类标签和 LLM 判断,以纠正排名指标中的偏差,从而实现更可靠的评估并改进对表现最佳模型的识别。这些技术旨在为开发人员提供 LLM 性能的校准估计和不确定性边界,而无需大量人工标注。