English(EN) An Approach to Enriching Surgical Video Datasets for Fine-Grained Spatial-Temporal Understanding of Vision-Language Models

新数据集增强AI对手术视频的理解能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-29 04:00

研究人员开发了SurgSTU-Pipeline来创建一个新的数据集SurgSTU，用于手术视频的细粒度时空理解。该pipeline解决了现有数据集的局限性以及手动标注或LLM生成数据的挑战。SurgSTU数据集包含超过6,700个视频片段，配有150,000个问答对，表明虽然通用视觉-语言模型最初会遇到困难，但可以通过上下文学习和在该专业数据集上进行微调来改进。 AI

影响这个专业数据集和pipeline可以显著提高AI系统分析手术过程的准确性和能力，可能带来更好的计算机辅助手术工具。

排序理由该集群包含一篇学术论文，详细介绍了一种用于AI研究的新方法和数据集。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Lennart Maack, Alexander Schlaefer · 2026-06-29 04:00

An Approach to Enriching Surgical Video Datasets for Fine-Grained Spatial-Temporal Understanding of Vision-Language Models

arXiv:2604.00784v2 Announce Type: replace Abstract: Surgical video understanding is a crucial prerequisite for advancing Computer-Assisted Surgery. While vision-language models (VLMs) have recently been applied to the surgical domain, existing surgical vision-language datasets la…

报道来源 [1]

An Approach to Enriching Surgical Video Datasets for Fine-Grained Spatial-Temporal Understanding of Vision-Language Models

相关实体

相关话题