PulseAugur
实时 07:51:29
实体 Precision@K

Precision@K

PulseAugur coverage of Precision@K — every cluster mentioning Precision@K across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 2 条
  1. RESEARCH · CL_71626 ·

    LLM 改进排名评估,引入新的可靠性方法

    两篇新研究论文介绍了提高大型语言模型(LLM)在排名任务中可靠性的方法。其中一篇论文 PRECISE 使用预测驱动推理(Prediction-Powered Inference)结合人类和 LLM 的判断,减少了诸如 Precision@K 等指标的估计误差。另一篇论文 EviRank 专注于通过提取模型内部证据并根据排名位置进行校准来估计基于 LLM 的排名的置信度,解决了现有不确定性量化方法中的挑战。

  2. RESEARCH · CL_91476 ·

    新方法通过人工智能和人类见解提高 LLM 评估的准确性

    研究人员开发了新的方法来提高大型语言模型 (LLM) 评估的准确性和校准性。一种方法是 Conformal Elo Estimation,它使用 LLM 的判断来估计 Elo 等级分,以显著更低的成本获得接近人类评级的结果。另一种方法 PRECISE 结合了少量人类标签和 LLM 判断,以纠正排名指标中的偏差,从而实现更可靠的评估并改进对表现最佳模型的识别。这些技术旨在为开发人员提供 LLM 性能的校准估计和不确定性边界,而无需大量人工标注。