实体 Precision@K

Precision@K

PulseAugur coverage of Precision@K — every cluster mentioning Precision@K across labs, papers, and developer communities, ranked by signal.

总计 · 30天

2

90 天内 2

发布 · 30天

0

90 天内 0

论文 · 30天

2

90 天内 2

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 2 条

RESEARCH · CL_71626 · Jun 3 · 11:11

LLM 改进排名评估，引入新的可靠性方法

两篇新研究论文介绍了提高大型语言模型（LLM）在排名任务中可靠性的方法。其中一篇论文 PRECISE 使用预测驱动推理（Prediction-Powered Inference）结合人类和 LLM 的判断，减少了诸如 Precision@K 等指标的估计误差。另一篇论文 EviRank 专注于通过提取模型内部证据并根据排名位置进行校准来估计基于 LLM 的排名的置信度，解决了现有不确定性量化方法中的挑战。
RESEARCH · CL_91476 · Jun 3 · 00:00

新方法通过人工智能和人类见解提高 LLM 评估的准确性

研究人员开发了新的方法来提高大型语言模型 (LLM) 评估的准确性和校准性。一种方法是 Conformal Elo Estimation，它使用 LLM 的判断来估计 Elo 等级分，以显著更低的成本获得接近人类评级的结果。另一种方法 PRECISE 结合了少量人类标签和 LLM 判断，以纠正排名指标中的偏差，从而实现更可靠的评估并改进对表现最佳模型的识别。这些技术旨在为开发人员提供 LLM 性能的校准估计和不确定性边界，而无需大量人工标注。