研究人员调查了语言模型将其自身答案作为置信信号进行验证的有效性。他们使用 Phi-2 和 Qwen 等各种模型在 ARC-Challenge 和 TruthfulQA-MC 数据集上进行的研究发现,自验证的效用高度依赖于特定任务、模型家族和提示设计。虽然它在 ARC-Challenge 上对某些 Qwen 模型显示出显著改进,但在 TruthfulQA-MC 上的可靠性不太一致,其他基线模型在该数据集上通常表现更好。研究结果表明,自验证不是一个通用的不确定性估计器,而是其价值可变的条件信号。 AI
影响 自验证的条件效用表明,需要进行仔细的特定任务调整,才能在 LLM 中进行可靠的置信度估计。
排序理由 评估语言模型新技术的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →