PulseAugur
实时 14:51:58
实体 M$^3$-VQA

M$^3$-VQA

PulseAugur coverage of M$^3$-VQA — every cluster mentioning M$^3$-VQA across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_06631 ·

    新的基准 SpecVQA 和 M3-VQA 在科学和多跳推理方面挑战多模态大语言模型

    研究人员推出了 M$^3$-VQA,这是一个新的基准,旨在评估多模态大语言模型 (MLLMs) 在涉及多个实体和多跳推理的复杂推理任务上的表现。该基准挑战模型理解跨越视觉和文本来源的细粒度细节,需要顺序和并行推理。对 16 个领先的 MLLMs 的初步评估显示,它们在知识获取和推理能力方面存在显著局限性,尽管在提供精确证据时性能有了实质性提高。