English(EN) BALTO: Balanced Token-Level Policy Optimization for Hallucination Mitigation

新的BALTO框架通过平衡令牌奖励解决LLM幻觉问题

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-16 04:00

研究人员开发了BALTO，一种用于减轻大型语言模型幻觉的新颖框架。该方法使用平衡的令牌级策略优化来更有效地分配信用，解决了局部幻觉和优化偏差问题。在ConFiQA和RAGTruth等多个基准上的实验表明，BALTO显著提高了忠实度，并与现有方法相比提供了更好的忠实度和信息量之间的权衡。 AI

影响引入了一种提高LLM忠实度的新方法，有可能在知识密集型应用中实现更可靠的部署。

排序理由该集群包含一篇详细介绍LLM幻觉缓解新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Ning Li, Zixuan Guo, Yan Xu, Wenbo Fei, Yifan Niu, Chang Luo, Yasheng Wang, Weiwen Liu, Yong Yu, Weinan Zhang · 2026-06-16 04:00

BALTO: Balanced Token-Level Policy Optimization for Hallucination Mitigation

arXiv:2606.15893v1 Announce Type: new Abstract: Hallucinations remain a major obstacle to deploying large language models (LLMs) in knowledge-intensive settings, where generated responses must be faithfully grounded in provided evidence. Reinforcement learning (RL) is a promising…