新基准评估多模态大语言模型的视觉检测能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-04 04:00

研究人员推出了 FindIt，这是一个旨在评估通用多模态大语言模型 (MLLM) 的可提示定位能力的新基准。该基准涵盖物体检测、指代表达式检测、实例级检测和视频检测，标准化输入和输出以进行公平评估。对各种 MLLM 的初步评估显示存在显著的局限性，特别是在遵守特定输出格式要求方面，突显了未来模型开发和评估改进的领域。 AI

影响为评估 MLLM 在定位任务中的能力建立了新标准，可能指导未来模型开发更好地遵守结构化输出。

排序理由这是一篇介绍用于评估多模态大语言模型的新基准的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Eshika Khandelwal, Jingjing Pan, Mingfang Zhang, Quan Kong, Lorenzo Garattoni, Hilde Kuehne · 2026-06-04 04:00

FindIt: A Format-Informed Visual Detection Benchmark for Generalist Multimodal LLMs

arXiv:2606.04282v1 Announce Type: new Abstract: Multimodal large language models (MLLMs) are predominantly evaluated on free-form vision-language tasks such as visual question answering, captioning, and summarization. However, their practical use is rapidly expanding to more stru…

报道来源 [1]

FindIt: A Format-Informed Visual Detection Benchmark for Generalist Multimodal LLMs

相关话题