PulseAugur
实时 17:23:24
实体 Meteor

Meteor

PulseAugur coverage of Meteor — every cluster mentioning Meteor across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_20329 ·

    新的DiffCap-Bench基准评估多模态大语言模型在图像差异字幕生成方面的能力

    研究人员推出了DiffCap-Bench,一个旨在评估多模态大语言模型图像差异字幕生成能力的新基准。该基准通过纳入十个不同的差异类别来解决现有数据集的局限性,确保了多样性和组合复杂性。它还提出了一种“LLM即评委”的评估协议,以更准确地评估模型描述视觉变化的能力,超越了简单的词汇重叠指标。