一位r/LocalLLaMA上的用户正在寻找将PDF文档转换为JSON格式的最可靠方法,特别是针对包含表格和偶尔图像的文档。他们目前使用PyMuPDF和pymupdf4llm提取文本,然后将其输入到LLM,但在特定字段(如日期)的幻觉和数据丢失方面遇到了问题,尤其是在存在多个日期时。用户还希望减少处理时间,目前15页文档需要5-7分钟,并正在寻求替代工作流建议。 AI
影响 用户正在探索使用LLM从文档中提取结构化数据的有效方法,这表明该领域需要改进工具和技术。
排序理由 用户咨询寻求技术工作流建议。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →