English(EN) Training LLMs with Reinforcement Learning over Digital Twin Representations for Reasoning-Intensive Surgical VideoQA

新的强化学习框架训练大型语言模型进行手术视频推理

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-17 04:00

研究人员开发了一个新的框架，使用强化学习来训练大型语言模型进行手术视频问答。该方法通过在源自手术基础模型的数字孪生表示上进行操作，将视觉感知与推理分离开来。该系统还结合了分层表示和一种新颖的奖励机制，该机制结合了格式验证、临床合理性和不确定性感知校准。 AI

排序理由该集群描述了一篇详细介绍用于在特定任务上训练大型语言模型的创新框架的新研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Yiqing Shen, Han Zhang, Mathias Unberath · 2026-06-17 04:00

Training LLMs with Reinforcement Learning over Digital Twin Representations for Reasoning-Intensive Surgical VideoQA

arXiv:2606.17279v1 Announce Type: new Abstract: Surgical video question answering requires multi-step reasoning across semantic, spatial, and temporal dimensions. Existing methods architecturally compress videos into discrete token representations and couple visual perception wit…