PulseAugur
实时 02:32:39
English(EN) Designing a Synthetic Data Pipeline for Persian LLM Fine Tuning: From Topic Graphs to QLoRA Evaluation

合成数据管道提升波斯语LLM性能

该项目详细介绍了为提高波斯语大型语言模型(LLM)的指令遵循能力而专门设计的合成数据管道的创建过程。该管道通过使用GPT 4.1 mini和nano等模型生成结构化指令对,解决了高质量波斯语数据集稀缺的问题。它包含了多阶段过滤,包括语义去重和基于LLM的质量评分,以确保数据的多样性和相关性。然后,使用包含约4,000个指令对(涵盖51个领域)的精选数据集,通过QLoRA对Qwen2.5 3B Instruct模型进行微调,并展示了稳定的收敛性。 AI

影响 通过合成生成解决数据稀缺问题,这种方法可以显著提高低资源语言LLM的性能。

排序理由 该条目描述了一种为特定语言的LLM微调生成合成数据的新颖方法,并详细介绍了管道和评估过程。[lever_c_demoted from research: ic=1 ai=1.0]

在 dev.to — LLM tag 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

合成数据管道提升波斯语LLM性能

报道来源 [1]

  1. dev.to — LLM tag TIER_1 English(EN) · Mohammad Heydari ·

    为波斯语大语言模型微调设计合成数据管道:从主题图谱到QLoRA评估

    <p><strong>Introduction: Why this project matters?</strong></p> <p>Training instruction following LLMs is no longer just about scaling models. It is about scaling data quality.<br /> In high resource languages like English, datasets such as Alpaca and OpenAssistant already exist.…