研究人员推出了SCLARO数据集,该数据集专为计算机视觉中的全面场景理解而设计。该数据集包含超过615,000张图像,并附有全局动作描述、对象边界框和通过关系三元组构建的结构化场景上下文的注释。为了评估SCLARO,该团队还开发了ScenarioCLIP,这是一种使用解耦编码器联合编码场景上下文、对象和关系的 模型,在开箱即用泛化方面表现优于PyramidCLIP等先前方法。 AI
影响 增强了计算机视觉在详细场景分析方面的能力,可能改进自主系统和图像解释。
排序理由 该集群描述了一个用于计算机视觉研究的新数据集和基准模型,发布在arXiv上。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →