一项发表在arXiv上的新研究评估了四个开源PDF到Markdown转换框架在检索增强生成(RAG)系统中对领域特定问答准确性的影响。研究发现,Docling结合分层拆分和图像描述,实现了最高的准确率(94.1%),甚至优于手动整理的Markdown。研究强调,数据准备质量,特别是依赖表格的问题处理和元数据丰富,比单独选择转换框架对RAG性能更为关键。 AI
影响 强调有效的数据准备是RAG性能的关键,影响AI系统处理和利用信息的方式。
排序理由 评估AI系统特定技术方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
- DeepSeek OCR
- Docling
- José Paulo Marques Dos Santos
- LLM-as-judge
- Markdown
- PDFLoader
- Retrieval-Augmented Generation
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →