PulseAugur
实时 07:32:01
English(EN) GuideDog: A Real-World Egocentric Multimodal Dataset for Blind and Low-Vision Accessibility-Aware Guidance

GuideDog 数据集通过以自我为中心的、多模态数据辅助盲人和低视力人士导航

研究人员推出 GuideDog,这是一个旨在帮助开发面向盲人和低视力 (BLV) 人士的多模态大语言模型 (MLLMs) 的新数据集。该数据集包含来自 46 个国家/地区的真实行人场景的 22,000 个图像-描述对,并利用了人类-AI 管道以实现更具可扩展性的标注。此外,GuideDogQA 是一个包含 818 个样本的基准测试,用于评估物体识别和深度感知能力,而目前的 MLLMs 在这些领域显示出局限性。 AI

影响 该数据集通过提供急需的真实世界数据,有望加速为视障人士开发辅助导航工具。

排序理由 该集群描述了一篇介绍数据集和基准测试的新学术论文。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

GuideDog 数据集通过以自我为中心的、多模态数据辅助盲人和低视力人士导航

报道来源 [1]

  1. arXiv cs.CV TIER_1 English(EN) · Junhyeok Kim, Jaewoo Park, Junhee Park, Sangeyl Lee, Jiwan Chung, Jisung Kim, Ji Hoon Joung, Youngjae Yu ·

    GuideDog: A Real-World Egocentric Multimodal Dataset for Blind and Low-Vision Accessibility-Aware Guidance

    arXiv:2503.12844v2 Announce Type: replace Abstract: For people affected by blindness and low vision (BLV), safe and independent navigation remains a major challenge, impacting over 2.2 billion individuals worldwide. Although multimodal large language models (MLLMs) offer new oppo…