Reddit的r/MachineLearning板块的一位用户正在寻求关于如何微调大型语言模型(LLM)以解决开放性数学问题的建议,特别是基于证明的任务。用户指出,依赖最终答案作为奖励的标准人类反馈强化学习(RLHF)方法,对于此类问题来说是不够的。他们正在考虑使用MathNet数据集作为训练数据,并正在寻找监督微调(SFT)和标准RL算法(如GRPO/PPO)之外的替代微调技术,因为缺乏明确的奖励函数。 AI
影响 讨论了在将LLM应用于复杂推理任务方面的挑战,强调了在标准RLHF之外需要新的微调方法。
排序理由 用户生成的问题,寻求关于LLM微调的技术建议,而非正式发布或研究论文。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →