研究人员开发了一个新颖的框架,该框架统一了机器人手术中的像素级分割和视觉问答(VQA)。该方法使用由视觉语言模型(VLM)生成的对象令牌来指导答案预测,并通过基于SAM的解码器生成分割掩码。通过同时优化分割和VQA目标的对象令牌,该模型学习了空间基础表示,增强了推理能力并提供了显式的像素级基础。该方法在RAMIE和EndoVis18数据集上表现出卓越的性能,提高了手术场景的细粒度理解。 AI
影响 增强了机器人手术应用中手术场景的细粒度理解和推理能力。
排序理由 该集群包含一篇详细介绍计算机视觉领域新技术方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
- Computer vision and pattern recognition
- EndoVis18
- Object Tokens
- RAMIE
- robot-assisted surgery
- SAM
- vision-language model
- visual question answering
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →