English(EN) OSCToM: RL-Guided Adversarial Generation for High-Order Theory of Mind

新的 OSCToM 方法提升了 LLM 的心智理论推理能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-22 04:00

研究人员开发了 OSCToM，这是一种新颖的方法，可以增强大型语言模型 (LLM) 的心智理论 (ToM) 推理能力，特别是在涉及嵌套信念冲突的复杂社交场景中。该方法利用强化学习和专门的领域特定语言来生成具有挑战性的观察者-自我冲突，推动 LLM 超越简单的视角采择。实验表明，OSCToM-8B 在 FANToM 等基准测试上的性能显著提高，准确率达到 76%，而之前的研究结果则有所不同，并展示了更高效的数据合成过程。 AI

影响增强了 LLM 在复杂社交推理方面的能力，有可能改善其在交互式和战略性 AI 系统中的应用。

排序理由发表了一篇详细介绍改进 LLM 能力的新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Sharmin Sultana Srishty, Kazi Mahathir Rahman, Malaika Parizat Sakkhi, Samia Shahid Prianna, Shaikhul Islam Sinat · 2026-05-22 04:00

OSCToM：高阶心智理论的 RL 引导对抗生成

arXiv:2605.20423v1 Announce Type: new Abstract: Large Language Models (LLMs) perform well on many language tasks, but their Theory of Mind (ToM) reasoning is still uneven in complex social settings. Existing benchmarks, including ExploreToM, do not always test the recursive belie…

报道来源 [1]

OSCToM：高阶心智理论的 RL 引导对抗生成

相关实体

相关话题