English(EN) What are you using to preprocess pdfs before feeding them to a local model?

LocalLLaMA 用户寻求PDF预处理工具以获得更好的LLM输入

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-02 13:21

r/LocalLLaMA 子版块的用户正在讨论在将PDF文档输入本地大型语言模型之前进行预处理的方法。突出的主要挑战是处理具有复杂布局（如表格和多栏文本）的PDF，这通常会导致输入混乱和模型输出质量差。参与者正在寻求除PyMuPDF和pdfplumber等基本库之外的工具推荐，并对Docling和LlamaParse等处理更复杂文档的工具特别感兴趣。 AI

影响用户正在探索提高输入到本地LLM的文档问答数据的质量的方法，旨在提高处理复杂文档布局的性能。

排序理由用户在子版块上讨论特定AI应用的工具和技术。

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/TangeloOk9486 · 2026-06-02 13:21

在将PDF输入本地模型之前，您使用什么工具进行预处理？

<div class="md"><p>I have been running a local setup for document QA and the output quality varies a lot depending on what the pdf looks like when it hits the LLM. clean prose docs are fine but anything with tables or multi column layouts comes out garbled and the …

报道来源 [1]

在将PDF输入本地模型之前，您使用什么工具进行预处理？

相关实体

相关话题