English(EN) How to fine-tune an LLM for open-ended problems? [P]

用户寻求LLM微调方法以解决开放性数学问题

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-30 14:42

Reddit的r/MachineLearning板块的一位用户正在寻求关于如何微调大型语言模型（LLM）以解决开放性数学问题的建议，特别是基于证明的任务。用户指出，依赖最终答案作为奖励的标准人类反馈强化学习（RLHF）方法，对于此类问题来说是不够的。他们正在考虑使用MathNet数据集作为训练数据，并正在寻找监督微调（SFT）和标准RL算法（如GRPO/PPO）之外的替代微调技术，因为缺乏明确的奖励函数。 AI

影响讨论了在将LLM应用于复杂推理任务方面的挑战，强调了在标准RLHF之外需要新的微调方法。

排序理由用户生成的问题，寻求关于LLM微调的技术建议，而非正式发布或研究论文。

在 r/MachineLearning 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/MachineLearning TIER_1 English(EN) · /u/TechNerd10191 · 2026-05-30 14:42

如何为开放式问题微调LLM？[P]

<div class="md"><p>I want to develop an LLM that can solve open-ended math problems (such as proof-only problems). This means that RLVR where we use the final answer alone as reward signal is not enough. Since SFT is useless here and GRPO/PPO methods will not have …

报道来源 [1]

如何为开放式问题微调LLM？[P]

相关实体

相关话题