Prediction-powered inference
PulseAugur coverage of Prediction-powered inference — every cluster mentioning Prediction-powered inference across labs, papers, and developer communities, ranked by signal.
3 天有情绪数据
-
新论文分析预测驱动推理,发现不存在普遍的“免费午餐”
一篇题为“没有免费午餐:预测驱动推理的非渐近分析”的新论文分析了预测驱动推理(PPI)策略的有效性。该研究对PPI++(PPI的一种自适应形式)进行了有限样本分析,证明了其渐近优势并非总是能在实践中得到体现。论文详细说明了PPI++在特定条件下和样本量下可能比仅使用黄金标准标签表现更差的情况,为从业者提供了评估PPI++在实际应用中效用的工具。
-
LLM 改进排名评估,引入新的可靠性方法
两篇新研究论文介绍了提高大型语言模型(LLM)在排名任务中可靠性的方法。其中一篇论文 PRECISE 使用预测驱动推理(Prediction-Powered Inference)结合人类和 LLM 的判断,减少了诸如 Precision@K 等指标的估计误差。另一篇论文 EviRank 专注于通过提取模型内部证据并根据排名位置进行校准来估计基于 LLM 的排名的置信度,解决了现有不确定性量化方法中的挑战。
-
新方法通过人工智能和人类见解提高 LLM 评估的准确性
研究人员开发了新的方法来提高大型语言模型 (LLM) 评估的准确性和校准性。一种方法是 Conformal Elo Estimation,它使用 LLM 的判断来估计 Elo 等级分,以显著更低的成本获得接近人类评级的结果。另一种方法 PRECISE 结合了少量人类标签和 LLM 判断,以纠正排名指标中的偏差,从而实现更可靠的评估并改进对表现最佳模型的识别。这些技术旨在为开发人员提供 LLM 性能的校准估计和不确定性边界,而无需大量人工标注。
-
新的MEC方法通过改进的不确定性量化来增强半监督推理
研究人员开发了一种名为机器学习辅助广义熵校准(MEC)的新方法,以改进半监督推理和不确定性量化。MEC是预测驱动推理(PPI)的一种交叉拟合、校准加权变体,它重新加权标记样本以更好地匹配目标总体,即使机器学习预测器被错误指定也能提高效率和鲁棒性。该方法在比现有PPI方法更弱的假设下实现了半参数效率界限,从而获得更准确的置信区间和覆盖范围。