PulseAugur
实时 16:35:14
English(EN) What are you using to preprocess pdfs before feeding them to a local model?

LocalLLaMA 用户寻求PDF预处理工具以获得更好的LLM输入

r/LocalLLaMA 子版块的用户正在讨论在将PDF文档输入本地大型语言模型之前进行预处理的方法。突出的主要挑战是处理具有复杂布局(如表格和多栏文本)的PDF,这通常会导致输入混乱和模型输出质量差。参与者正在寻求除PyMuPDF和pdfplumber等基本库之外的工具推荐,并对Docling和LlamaParse等处理更复杂文档的工具特别感兴趣。 AI

影响 用户正在探索提高输入到本地LLM的文档问答数据的质量的方法,旨在提高处理复杂文档布局的性能。

排序理由 用户在子版块上讨论特定AI应用的工具和技术。

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. r/LocalLLaMA TIER_1 English(EN) · /u/TangeloOk9486 ·

    What are you using to preprocess pdfs before feeding them to a local model?

    <!-- SC_OFF --><div class="md"><p>I have been running a local setup for document QA and the output quality varies a lot depending on what the pdf looks like when it hits the LLM. clean prose docs are fine but anything with tables or multi column layouts comes out garbled and the …