实体 Mathnet

Mathnet

PulseAugur coverage of Mathnet — every cluster mentioning Mathnet across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 2

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 2

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 2 条

TOOL · CL_171983 · Jul 30 · 04:00

新的MathNet基准挑战领先AI模型的多语言推理能力

研究人员推出了MathNet，这是一个新的多模态、多语言数据集，旨在评估大型语言模型的数学推理和检索能力。该数据集包含来自47个国家和17种语言的30,000多个奥林匹克级别数学问题，跨越二十年。初步实验表明，像Gemini-3.1 Pro和GPT-5这样的当前最先进模型在这些复杂问题上仍然面临挑战，而像DeepSeek-V3.2-Speciale这样的检索增强生成模型则表现出显著的性能提升。
COMMENTARY · CL_61193 · May 30 · 14:42

用户寻求LLM微调方法以解决开放性数学问题

Reddit的r/MachineLearning板块的一位用户正在寻求关于如何微调大型语言模型（LLM）以解决开放性数学问题的建议，特别是基于证明的任务。用户指出，依赖最终答案作为奖励的标准人类反馈强化学习（RLHF）方法，对于此类问题来说是不够的。他们正在考虑使用MathNet数据集作为训练数据，并正在寻找监督微调（SFT）和标准RL算法（如GRPO/PPO）之外的替代微调技术，因为缺乏明确的奖励函数。