实体 MMLongBench-Doc

MMLongBench-Doc

PulseAugur coverage of MMLongBench-Doc — every cluster mentioning MMLongBench-Doc across labs, papers, and developer communities, ranked by signal.

总计 · 30天

4

90 天内 9

发布 · 30天

0

90 天内 0

论文 · 30天

4

90 天内 9

层级分布 · 90 天

主题

关系

instance of DocBench 90%

情绪 · 30 天

3 天有情绪数据

最近 · 第 1/1 页 · 共 9 条

TOOL · CL_169642 · Jul 29 · 04:00

新的VLD-RAG框架增强了AI处理长篇、视觉文档的能力

研究人员开发了VLD-RAG，一个新颖的代理式框架，专为长篇、富含视觉信息文档的检索增强生成而设计。该系统构建了一个多模态索引，保留了页面布局，并结合了文本和视觉信号。通过采用结合关键词和语义搜索的混合检索策略，VLD-RAG能够识别相关的证据页面，并利用协调的代理工作流进行证据收集、引用验证和检索请求的迭代优化。在LongDocURL和MMLongBench-Doc等基准测试上的评估表明，与现有的基于视觉的方法相比，VLD-RAG在…
TOOL · CL_156601 · Jul 22 · 04:00

新的TAP-RAG框架改进了长文档上的多模态问答

研究人员推出了一种新颖的TAP-RAG框架，旨在改进长文档上的多模态问答。该系统采用任务感知策略控制器（TAPC），通过分析查询来确定最佳证据收集策略。TAP-RAG利用专门的执行器，TA-QFD用于文本和结构证据，TAVE用于视觉信息，以提高准确性。该框架在DocBench和MMLongBench-Doc等基准测试中表现出色，优于标准的多模态RAG基线。
RESEARCH · CL_141429 · Jul 11 · 00:00

新基准 SynthDocBench 揭示视觉语言模型 (VLM) 在长上下文文档理解方面的不足

研究人员推出了一种新颖的合成基准测试 SynthDocBench，旨在评估视觉语言模型 (VLM) 的长上下文视觉文档理解能力。与现有基准测试不同，SynthDocBench 系统地控制了文档长度、布局复杂性和问题类型等因素，以隔离模型故障模式。对七个前沿 VLM 的评估揭示了显著问题，包括随着文档长度增加而导致的性能下降、文档中间部分尤其具有挑战性的位置偏差，以及长文档中图表理解能力的崩溃，这表明当前模型可能过度拟合了基准测试的伪影。
RESEARCH · CL_117131 · Jun 28 · 23:36

新框架学会动态编排AI检索器以进行文档推理

研究人员开发了一种新颖的多模态文档推理代理框架，该框架学会动态编排各种检索方法。这种面向失败的演进方法允许一个元代理在多个步骤中自适应地指导任务代理协调词汇、语义和多模态检索器。演进后的代理在MMLongBench-Doc和DocBench等基准测试中表现出更高的性能，通过学会调用、组合和整合来自不同模态和页面的证据，超越了现有系统。
RESEARCH · CL_93328 · Jun 14 · 16:34

MAGE-RAG 框架增强长文档的多模态问答能力

研究人员推出 MAGE-RAG，一个旨在改进长文档多模态问答的新框架。该系统构建了一个自适应证据图，整合了文本、图像、表格和布局信息。在查询时，证据控制器动态选择和修剪相关信息，为大型语言模型创建紧凑、结构化的输入，从而平衡证据覆盖率和噪声抑制。
TOOL · CL_79443 · Jun 8 · 03:25

EviProp 方法通过图扩散改进长文档检索

研究人员开发了 EviProp，一种从长而富含视觉信息的文档中检索相关页面的新方法。与现有独立评估页面相关性的方法不同，EviProp 将文档建模为多模态的块-页图。它使用种子相关性扩散，结合查询-页面相似度与块级信号来提高检索准确性。在基准数据集上的实验表明，EviProp 的性能优于传统方法，并能带来更好的下游问答性能。
RESEARCH · CL_77112 · Jun 5 · 13:24

新的CDS方法推动多模态文档问答发展

研究人员开发了一种新的检索方法，称为约束主导集（CDS），用于多模态文档问答。该技术解决了当前系统中难以处理长文档的局限性，通过选择互补证据而非近乎重复的证据。CDS将查询编码为结构约束，自动平衡相关性和冗余性，并通过实现全局均衡来避免贪婪启发式方法。当与Qwen3-VL-32B阅读器一起使用时，CDS在VisDoMBench上设定了新的最先进水平，并显著提高了MMLongBench-Doc的性能。
RESEARCH · CL_72651 · Jun 4 · 06:23

MARDoc框架通过结构化记忆增强多模态长文档问答能力

研究人员推出了一种新颖的框架MARDoc，旨在改进长篇多模态文档的问答能力。该系统使用三个专门的代理：用于检索的Explorer，用于将交互处理成结构化记忆的Refiner，以及用于反馈的Reflector。通过采用动态结构化记忆而非持续增长的上下文，MARDoc旨在减少噪声并保留关键信息，以实现更有效的多跳推理。
TOOL · CL_46440 · May 24 · 03:11

具备视觉能力的LLM与OCR在文档问答方面进行测试

一项基准测试将具备视觉能力的大型语言模型与基于OCR的管道在长篇、富含图像的文档问答方面进行了比较。评估使用了MMLongBench-Doc数据集中的30个PDF文件，评估了模型解释文档中图表、图像和表格的能力。结果突显了每种方法在处理复杂视觉信息进行文档问答方面的优缺点。