一篇新论文认为,目前量化大型语言模型(LLM)不确定性的方法存在根本性缺陷,将其比作无监督聚类算法。这些方法主要衡量内部一致性而非外部正确性,因此无法检测到自信的幻觉。作者主张范式转变,采用将验证锚定在客观真理上的不确定性量化(UQ)方法,以确保模型置信度能可靠地反映现实。 AI
影响 挑战了当前LLM部署的安全假设,可能导致在可靠不确定性估计方面的新研究。
排序理由 该聚类包含一篇学术论文,讨论了新的研究发现并为该领域提出了新的方向。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →