实体 ShredBench

ShredBench

PulseAugur coverage of ShredBench — every cluster mentioning ShredBench across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_06302 · Apr 26 · 17:26

新基准 SciMDR 和 ShredBench 评估多模态大语言模型在科学文档和重建方面的能力

研究人员推出了 ShredBench，这是一个旨在评估多模态大语言模型（MLLMs）从碎片化文档中重建文档的语义推理能力的新基准。该基准利用自动化流程生成碎片化文档，确保评估不受训练数据污染。对当前 MLLMs 的初步测试显示，随着文档碎片化的增加，性能显著下降，表明它们在弥合视觉不连续性和执行细粒度跨模态推理方面存在差距。