English(EN) GuideDog: A Real-World Egocentric Multimodal Dataset for Blind and Low-Vision Accessibility-Aware Guidance

GuideDog 数据集通过以自我为中心的、多模态数据辅助盲人和低视力人士导航

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-01 04:00

研究人员推出 GuideDog，这是一个旨在帮助开发面向盲人和低视力 (BLV) 人士的多模态大语言模型 (MLLMs) 的新数据集。该数据集包含来自 46 个国家/地区的真实行人场景的 22,000 个图像-描述对，并利用了人类-AI 管道以实现更具可扩展性的标注。此外，GuideDogQA 是一个包含 818 个样本的基准测试，用于评估物体识别和深度感知能力，而目前的 MLLMs 在这些领域显示出局限性。 AI

影响该数据集通过提供急需的真实世界数据，有望加速为视障人士开发辅助导航工具。

排序理由该集群描述了一篇介绍数据集和基准测试的新学术论文。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Junhyeok Kim, Jaewoo Park, Junhee Park, Sangeyl Lee, Jiwan Chung, Jisung Kim, Ji Hoon Joung, Youngjae Yu · 2026-05-01 04:00

GuideDog: A Real-World Egocentric Multimodal Dataset for Blind and Low-Vision Accessibility-Aware Guidance

arXiv:2503.12844v2 Announce Type: replace Abstract: For people affected by blindness and low vision (BLV), safe and independent navigation remains a major challenge, impacting over 2.2 billion individuals worldwide. Although multimodal large language models (MLLMs) offer new oppo…

报道来源 [1]

GuideDog: A Real-World Egocentric Multimodal Dataset for Blind and Low-Vision Accessibility-Aware Guidance

相关实体

相关话题