检索增强生成(RAG)系统面临性能瓶颈,即使是高级实现,在处理复杂的企业查询时准确率也难以超过 70-85%。尽管混合搜索和代理管道有所改进,RAG 的有效性仍受限于固有挑战,尤其是在法律和医疗保健等准确性至关重要的领域。最近的研究表明,即使是 GPT-5.5 等领先模型也表现出高幻觉率,而像 Westlaw 和 LexisNexis 这样的成熟法律 AI 工具在复杂任务上的准确率也显著下降,未能消除幻觉。 AI
影响 强调了 RAG 持续存在的挑战和准确性限制,表明当前方法可能无法完全满足复杂的企业需求。
排序理由 文章讨论了 RAG 系统的局限性和性能瓶颈,引用了学术研究和基准测试。[lever_c_demoted from research: ic=1 ai=1.0]
- Claude Sonnet 4.5
- FinanceBench
- GPT-5
- GPT-5.5
- Grok-4
- Journal of Empirical Legal Studies
- LexisNexis Lexis+ AI
- RAGBench
- Space Invaders
- Stanford
- Vals AI Legal Research Report
- Vectara HHEM Leaderboard
- Westlaw
- Westlaw AI
- Yale
- CoCounsel
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →