研究人员开发了SurgSTU-Pipeline来创建一个新的数据集SurgSTU,用于手术视频的细粒度时空理解。该管道解决了现有数据集的局限性以及手动标注或LLM生成数据的挑战。SurgSTU数据集包含超过6700个视频片段和150,000个问答对,表明虽然通用视觉-语言模型最初表现不佳,但可以通过上下文学习和在该专业数据集上进行微调来改进。 AI
影响 这个专业数据集和管道可以显著提高AI系统分析手术过程的准确性和能力,可能带来更好的计算机辅助手术工具。
排序理由 该集群包含一篇详细介绍AI研究新方法和数据集的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
在 Hugging Face Daily Papers 阅读 →
- arXiv
- computer-assisted surgery
- Hugging Face
- large-language models
- Lennart Maack
- SurgSTU
- SurgSTU-Pipeline
- vision-language model
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →