实体 Dragon

Dragon

PulseAugur coverage of Dragon — every cluster mentioning Dragon across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_06584 · Apr 28 · 04:00

新基准DRAGON和OmniSch测试LMM的图表推理能力

研究人员推出了DRAGON，这是一个旨在评估视觉语言模型（VLM）在多大程度上能够将其推理与图表中的特定视觉证据联系起来的新基准。该基准解决了模型可能通过虚假关联而非真正理解视觉信息而获得正确答案的局限性。DRAGON包含来自六个现有图表问答数据集的超过11,000个带注释的问题实例，其中测试集包含经过人类验证的推理证据注释。评估了八个VLM在各种图表类型中定位这些证据的能力，旨在提高基于图表的推理的可解释性和可靠性。