研究人员推出 GuideDog,这是一个旨在帮助开发面向盲人和低视力 (BLV) 人士的多模态大语言模型 (MLLMs) 的新数据集。该数据集包含来自 46 个国家/地区的真实行人场景的 22,000 个图像-描述对,并利用了人类-AI 管道以实现更具可扩展性的标注。此外,GuideDogQA 是一个包含 818 个样本的基准测试,用于评估物体识别和深度感知能力,而目前的 MLLMs 在这些领域显示出局限性。 AI
影响 该数据集通过提供急需的真实世界数据,有望加速为视障人士开发辅助导航工具。
排序理由 该集群描述了一篇介绍数据集和基准测试的新学术论文。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →