PulseAugur
实时 08:39:19
实体 Mathnet

Mathnet

PulseAugur coverage of Mathnet — every cluster mentioning Mathnet across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. COMMENTARY · CL_61193 ·

    用户寻求LLM微调方法以解决开放性数学问题

    Reddit的r/MachineLearning板块的一位用户正在寻求关于如何微调大型语言模型(LLM)以解决开放性数学问题的建议,特别是基于证明的任务。用户指出,依赖最终答案作为奖励的标准人类反馈强化学习(RLHF)方法,对于此类问题来说是不够的。他们正在考虑使用MathNet数据集作为训练数据,并正在寻找监督微调(SFT)和标准RL算法(如GRPO/PPO)之外的替代微调技术,因为缺乏明确的奖励函数。