研究人员开发了一种名为自适应共形语义熵(ACSE)的新方法,以更好地估计大型语言模型(LLMs)的不确定性。该方法侧重于同一提示的不同响应的语义分散性,而不仅仅是词汇或概率度量。ACSE根据语义特征自适应地调整不确定性分数,并使用共形校准来确保统计可靠性,从而限制了被接受响应的错误率。实验表明,ACSE的性能显著优于现有方法,在TriviaQA数据集上的AUROC为0.88,而令牌熵为0.65。 AI
影响 通过提供更好的不确定性估计,提高大型语言模型在安全关键应用中的可靠性。
排序理由 介绍大型语言模型不确定性量化新方法的学术论文。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →