研究人员推出OR-VSKC,一个旨在解决手术室环境中多模态大语言模型(MLLMs)视觉-语义知识冲突的新基准。该基准利用了由协议到像素生成框架生成的28,190张高保真合成图像,这些图像以权威的手术安全标准为基础。对当前MLLMs的评估显示存在显著的可靠性差距,但使用OR-VSKC进行微调在缓解这些冲突和提高泛化能力方面显示出希望。该数据集和代码将开源,以促进安全关键医疗环境的进一步研究。 AI
影响 为评估和改进关键医疗应用中的MLLM安全对齐提供了一个新基准。
排序理由 该集群描述了一篇介绍用于评估AI模型的新基准数据集和框架的学术论文。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →