English(EN) SCLARO: A Dataset for Grounded Scenario-Level Scene Understanding and ScenarioCLIP for Benchmarking

新的SCLARO数据集和ScenarioCLIP模型推动场景理解发展

作者 PulseAugur 编辑部 · [1 个来源] · 2026-07-03 04:00

研究人员推出了SCLARO数据集，该数据集专为计算机视觉中的全面场景理解而设计。该数据集包含超过615,000张图像，并附有全局动作描述、对象边界框和通过关系三元组构建的结构化场景上下文的注释。为了评估SCLARO，该团队还开发了ScenarioCLIP，这是一种使用解耦编码器联合编码场景上下文、对象和关系的模型，在开箱即用泛化方面表现优于PyramidCLIP等先前方法。 AI

影响增强了计算机视觉在详细场景分析方面的能力，可能改进自主系统和图像解释。

排序理由该集群描述了一个用于计算机视觉研究的新数据集和基准模型，发布在arXiv上。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Advik Sinha, Saurabh Atreya, Aashutosh A V, Sk Aziz Ali, Abhijit Das · 2026-07-03 04:00

SCLARO: A Dataset for Grounded Scenario-Level Scene Understanding and ScenarioCLIP for Benchmarking

arXiv:2511.20274v2 Announce Type: replace Abstract: In the paradigm of computer vision-based precise real-world scene understanding, joint reasoning in terms of contextual understanding about the objects present in a scene, their inter-object relations, and the action being perfo…

报道来源 [1]

SCLARO: A Dataset for Grounded Scenario-Level Scene Understanding and ScenarioCLIP for Benchmarking

相关话题