研究人员探索了使用强化学习来训练小型语言模型进行零样本文本到SPARQL生成,这项任务对于知识图谱问答至关重要。他们将组相对策略优化(GRPO)应用于Qwen3-1.7B模型,利用执行反馈和答案级奖励,而不是要求黄金查询注释。GRPO训练的模型在零样本基线上显示出显著的改进,证明了在没有完全监督的情况下,基于结果的强化学习在此任务上的可行性。 AI
影响 展示了一种在没有大量标记数据的情况下,使用小型模型处理复杂任务的可行方法,可能降低知识图谱查询的门槛。
排序理由 学术论文,详细介绍了使用强化学习进行文本到SPARQL生成的新方法。 [lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →