该项目详细介绍了为提高波斯语大型语言模型(LLM)的指令遵循能力而专门设计的合成数据管道的创建过程。该管道通过使用GPT 4.1 mini和nano等模型生成结构化指令对,解决了高质量波斯语数据集稀缺的问题。它包含了多阶段过滤,包括语义去重和基于LLM的质量评分,以确保数据的多样性和相关性。然后,使用包含约4,000个指令对(涵盖51个领域)的精选数据集,通过QLoRA对Qwen2.5 3B Instruct模型进行微调,并展示了稳定的收敛性。 AI
影响 通过合成生成解决数据稀缺问题,这种方法可以显著提高低资源语言LLM的性能。
排序理由 该条目描述了一种为特定语言的LLM微调生成合成数据的新颖方法,并详细介绍了管道和评估过程。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →