研究人员推出了 FindIt,这是一个旨在评估通用多模态大语言模型 (MLLM) 的可提示定位能力的新基准。该基准涵盖物体检测、指代表达式检测、实例级检测和视频检测,标准化输入和输出以进行公平评估。对各种 MLLM 的初步评估显示存在显著的局限性,特别是在遵守特定输出格式要求方面,突显了未来模型开发和评估改进的领域。 AI
影响 为评估 MLLM 在定位任务中的能力建立了新标准,可能指导未来模型开发更好地遵守结构化输出。
排序理由 这是一篇介绍用于评估多模态大语言模型的新基准的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →