PulseAugur
实时 17:45:54
English(EN) From PDF to RAG-Ready: Evaluating Document Conversion Frameworks for Domain-Specific Question Answering

研究发现PDF转换质量对RAG问答至关重要

一项发表在arXiv上的新研究评估了四个开源PDF到Markdown转换框架在检索增强生成(RAG)系统中对领域特定问答准确性的影响。研究发现,Docling结合分层拆分和图像描述,实现了最高的准确率(94.1%),甚至优于手动整理的Markdown。研究强调,数据准备质量,特别是依赖表格的问题处理和元数据丰富,比单独选择转换框架对RAG性能更为关键。 AI

影响 强调有效的数据准备是RAG性能的关键,影响AI系统处理和利用信息的方式。

排序理由 评估AI系统特定技术方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

研究发现PDF转换质量对RAG问答至关重要

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Jos\'e Guilherme Marques dos Santos, Ricardo Yang, Rui Humberto Pereira, Alexandre Sousa, Br\'igida M\'onica Faria, Henrique Lopes Cardoso, Jos\'e Duarte, Jos\'e Lu\'is Reis, Lu\'is Paulo Reis, Pedro Pimenta, Jos\'e Paulo Marques dos Santos ·

    From PDF to RAG-Ready: Evaluating Document Conversion Frameworks for Domain-Specific Question Answering

    arXiv:2604.04948v2 Announce Type: replace-cross Abstract: Retrieval-Augmented Generation (RAG) systems depend critically on the quality of document preprocessing, yet no prior study has evaluated PDF processing frameworks by their impact on downstream question-answering accuracy.…