上海交通大学和腾讯的研究人员开发了BALTO,一个新颖的强化学习框架,旨在精准消除大型语言模型(LLMs)中的幻觉。该框架通过在Token级别分配信用,仅惩罚错误的Token,同时激励正确的、事实性的Token。这一方法在最近的一篇论文中有所详述,旨在保持模型响应的丰富性和信息量,这与传统方法不同,传统方法可能会因为微小的事实错误而过度惩罚整个答案。在金融和问答数据集上的实验表明,BALTO在稳定性、效率以及平衡事实准确性与信息内容方面表现出色。 AI
影响 这种Token级别的幻觉减少技术可以显著提高LLM在高风险应用(如金融和医疗保健)中的可靠性。
排序理由 该集群描述了一篇关于提出新框架以改进LLM幻觉减少的新研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →