研究人员开发了一个名为知识冲突推理(KCR)的新框架,旨在帮助大型语言模型(LLM)解决其训练数据中的矛盾。KCR将冲突信息分解为结构化的推理轨迹,使用文本和图的混合表示。该框架采用带有可验证奖励的强化学习(RLVR)范式来训练一个优先考虑逻辑一致性的策略。评估表明,一个增强了KCR的7B模型在裁决知识冲突方面,显著优于GPT-4o和GPT-5.1等专有模型。 AI
影响 该框架通过使LLM能够更好地处理其训练数据中的矛盾信息,从而提高其可靠性和准确性。
排序理由 该集群包含一篇详细介绍新框架及其评估的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
- arXiv
- GPT-4o
- GPT-5.1
- Knowledge Conflict Reasoning
- large-language models
- Reinforcement Learning with Verifiable Rewards
- Xianda Zheng
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →