研究人员评估了四种文本切块策略,用于一个检索增强生成(RAG)框架,并使用了柬埔寨语农业文献。研究发现,基于字符的递归切块方法,切块大小为300个字符,表现最佳。该方法实现了最低的L2距离和最高的答案相关性及柬埔寨语交并比(IoU)得分,与基于句子的方法相比有显著改进。 AI
影响 提高了低资源语言的RAG性能,可能在专业领域实现更好的信息获取。
排序理由 学术论文,详细介绍了针对特定语言和领域的文本切块策略评估。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →