Mathematics Genealogy Project
PulseAugur coverage of Mathematics Genealogy Project — every cluster mentioning Mathematics Genealogy Project across labs, papers, and developer communities, ranked by signal.
1 天有情绪数据
-
千年学术传承谱系绘制完成,揭示莱布尼茨的核心作用
研究人员利用47万份师生记录,绘制了千年学术知识的传递图谱。研究确定了知识传递的两种主要制度性转变。第一次转变发生在17世纪左右,知识传播大量集中于戈特弗里德·威廉·莱布尼茨,凸显了他在传递知识而非仅仅发现知识方面的作用。第二次转变揭示,在抵达11世纪的欧洲边界之前,84%的学术传承谱系可以追溯到12至13世纪伊斯兰和拜占庭世界的五位学者。
-
AI 协助形式化复杂的数学证明
研究人员正在利用人工智能来形式化历史上最复杂的数学证明之一。这项工作代表了数学和人工智能在抽象推理应用方面的一个重要里程碑。该项目旨在利用人工智能协助严格验证复杂的数学概念。
-
新架构应对LLM的灾难性遗忘问题
研究人员开发了新的架构方法,以解决大型语言模型(LLM)在持续预训练和微调过程中出现的灾难性遗忘问题。其中一种方法TFGN引入了一个叠加层,可以在不改变核心Transformer的情况下实现参数高效更新,在不同领域和模型规模下均能显著保留先前的知识。另一种受生物视觉启发的UAM方法,采用双流架构将语义理解与动作控制分离,在VLA模型训练过程中保持多模态能力。这些进展旨在使模型能够持续学习,而不会降低先前获得的知识的性能。
-
新的强化学习方法教会大型语言模型自我纠正答案
研究人员开发了 SCoRe,一种新颖的两阶段强化学习技术,使语言模型能够使用自我生成的数据来改进其响应。该方法在应用于 Gemini 1.5 Flash 和 1.0 Pro 等模型时,显著提高了在 MATH 和 HumanEval 等基准测试上的性能。此外,另一项研究探讨了数学推理的过程监督与结果监督,发现过程奖励模型能产生更好的结果,尽管样本量较少时优势会减弱。
-
新算法高效采样复合对数凹分布
研究人员开发了一种新的近邻梯度算法,用于从复合对数凹分布中采样。该算法假设可以访问分布一部分的梯度评估和一个受限的高斯预言机。所提出的方法在采样迭代次数上达到了最先进水平,与先前在更简单情况下的结果相当,并可扩展到非对数凹分布和非光滑函数。
-
AI推理研究因关注最终答案而非计算而存在缺陷
一篇新的研究论文指出了思维链(CoT)腐败研究中一个重大的缺陷,该研究用于评估AI推理的忠实度。研究发现,这些评估常常错误地将最终答案的位置视为推理过程中计算上最重要的部分,而不是实际的计算步骤。通过消除答案语句,这种格式混淆被证明会大大降低对推理步骤中腐败的敏感性。
-
数学双学位加速AI算法理解
攻读数学双学位可以显著加快对人工智能算法的理解。这种跨学科的方法为学生打下了更坚实的基础,以掌握复杂的人工智能概念。
-
AI模型学习交通网络行为以加速模拟
研究人员开发了一种新的方法,使用机器学习,特别是图神经网络(GNNs),来解决交通分配问题(TAP)。该方法旨在比传统的迭代模拟更有效地预测道路网络上的交通流量分布。目标是实现用户均衡,即没有司机可以通过改变路线来改善他们的出行时间。
-
神经网络加速伪谱计算用于稳定性分析
研究人员开发了一种新颖的神经网络方法来加速结构化非正规带状矩阵的伪谱计算。该方法预测谱敏感区域,从而仅在需要时进行集中计算,避免了在整个复平面上的详尽评估。数值实验表明,这种神经引导域限制在保持这些敏感区域识别的高精度的同时,显著加快了计算速度。
-
主密钥假说:通过线性子空间对齐解锁跨模型能力迁移
研究人员提出了主密钥假说(Master Key Hypothesis),认为模型能力存在于可迁移的潜在子空间中,这些子空间可以在不同模型规模之间对齐。他们开发了一个名为 UNLOCK 的框架,实现了像链式思考(Chain-of-Thought)推理等能力的无训练、无标签迁移。实验表明,在不同 Qwen 模型之间迁移推理能力时,准确率显著提高,甚至超过了更大规模的、经过后续训练的模型。
-
OpenAI 模型解决了 60 年的数学难题,在 AlphaFold 的成功基础上更进一步
据报道,一个 OpenAI 模型解决了一个长期存在的数学问题,这一壮举此前被认为需要广泛的人类专业知识。这一发展引发了对通用大型语言模型在复杂科学领域能力的问题。另外,DeepMind 的 AlphaFold,一个人工智能系统,因其对科学的贡献获得了诺贝尔化学奖,凸显了人工智能在可以机械验证准确性的硬科学领域的潜力。
-
新数学论文证明了凸序中的尖锐一维次高斯比较
研究人员发表了一篇论文,详细介绍了凸序中的尖锐一维次高斯比较。该研究证明了一个矩生成函数有界于标准正态分布的随机变量X,在凸序上被一个缩放的正态分布所支配。这一数学发现对于理解随机变量及其分布的性质具有启示意义。
-
新方法提高文本到图像检索和知识生成准确性
研究人员推出 KVBench,这是一个旨在评估知识密集型领域中文本到图像模型准确性的新基准。该基准涵盖生物学、化学和物理学等学科,揭示了当前模型存在的显著缺陷,尤其是在逻辑推理和符号精度方面。为解决这些问题,提出了一种名为 KE-Check 的框架,通过提示丰富和约束执行来提高科学保真度,从而减少不准确性。
-
新研究表明,如果不加以仔细管理,LLM 的自我修正可能会降低性能。
一篇新研究论文引入了一个基于控制理论的框架,用于分析大型语言模型(LLM)中的迭代自我修正何时有利或有害。该研究提出了一个基于纠错率(ECR)和误差信息率(EIR)的诊断方法,以确定是否应继续优化。在七个模型和三个数据集上的实验显示,有效的自我修正需要 EIR 阈值低于 0.5%,而某些模型(如 GPT-5)在超过此阈值时性能会下降。
-
大型语言模型在纠正错误方面有多好?一项使用 Keras 和 TPU 的聊天机器人竞技场实验
当前评估大型语言模型的方法,如 MMLU 和 HumanEval,可能不足以捕捉交互式、目标导向对话的细微差别。更有效的方法是根据聊天机器人在多轮对话中与用户互动以实现特定目标的能力来评估它们,这模仿了人类的互动模式。这种“有目的的对话”可以增强用户体验并解锁新功能,即使在代码生成和个性化助手等领域也是如此。