一项新研究检查了七个参数量在30亿到90亿之间的指令微调、开源大型语言模型(LLM)的语言置信度。研究人员发现,这些模型未能达到表达不确定性的最低有效性标准,所有模型在数值置信度引发方面均被判定为无效。使用分类引发来改进置信度报告的尝试扰乱了大多数模型的任务表现,导致准确率低于5%。研究表明,当前的语言置信度引发方法不足以捕捉此类规模模型内部的不确定性信号。 AI
影响 强调了当前LLM置信度报告的局限性,表明在下游使用前需要改进方法。
排序理由 学术论文,详细介绍了关于LLM置信度引发的实验结果。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →