AlphaZero · PulseAugur

AI智能体“WallZero”精通复杂棋盘游戏WallGo

研究人员开发了基于AlphaZero的AI智能体WallZero，旨在精通策略棋盘游戏WallGo。这款游戏因一部Netflix剧集而流行，尽管棋盘尺寸不大，但复杂度很高。WallZero通过击败两名专业围棋选手展现了卓越的性能，平均每局多获得1.98倍的领土。该研究还利用WallZero分析了游戏的公平性并识别了最优策略，发现Netflix剧集中出现的开局能带来更平衡的对局。

TOOL · CL_106629 · Jun 13 · 13:48

AI发现更优的格约简策略，超越LLL算法

研究人员开发了一种深度强化学习方法来发现新的格基约简策略，其性能优于传统的Lenstra-Lenstra-Lovász (LLL)算法。通过将格约简构建为马尔可夫决策过程，并采用类似AlphaZero的、带有蒙特卡洛树搜索的自我博弈流程，该系统（命名为DeltaStar）学会了以更少的操作实现更好的约简。值得注意的是，DeltaStar在无需重新训练的情况下，能够有效地泛化到更高维度和未见的模。

RESEARCH · CL_93268 · Jun 13 · 13:48

AI发现更优的格规约策略，超越LLL算法

研究人员开发了一种新的方法，使用深度强化学习来发现更优的Lenstra-Lenstra-Lovász (LLL)算法策略，LLL算法是计算机科学中格基规约的基本工具。通过将格规约视为马尔可夫决策过程，并采用类似AlphaZero的自我博弈流程结合蒙特卡洛树搜索，他们训练了一个名为DeltaStar的策略。这种使用低维格开发的新策略比传统的LLL算法需要更少的操作，并且在无需重新训练的情况下，能够零样本泛化到更高维度和未见的模。

RESEARCH · CL_75679 · Jun 7 · 03:47

David Silver 的 Ineffable Intelligence 公司以反LLM赌注融资110亿美元

Ineffable Intelligence 是一家成立仅两个月、由 DeepMind 的 David Silver 创立的公司，已获得创纪录的110亿美元种子轮融资，估值达到510亿美元。该公司的核心赌注挑战了主流的LLM范式，认为真正的AI发展在于与环境互动并从结果中学习，而不仅仅是处理静态的人类文本数据。来自 Sequoia、Lightspeed、Google 和 NVIDIA 等主要参与者的巨额投资表明，业内对当前AI“规模至…

TOOL · CL_69336 · Jun 3 · 17:22

AlphaZero 奥赛罗训练困境促使超参数分析

一位用户正在为 6x6 版奥赛罗训练 AlphaZero 模型，但遇到了性能问题。尽管模型之间相互改进，但它们并不比基准代理显著更好，对贪婪代理的胜率低于 10%。用户已经分析了训练数据，包括价值损失、预测熵和策略分歧，并正在寻求关于超参数调整的建议，以解决模型的糟糕性能。

TOOL · CL_68022 · Jun 2 · 23:27

机制可解释性揭示大型语言模型的推理过程

研究人员正通过机制可解释性在理解大型语言模型的内部运作方面取得重大进展。诸如Anthropic的电路追踪等技术能够识别模型前向传播中的高级概念及其因果关系。这种方法揭示了大型语言模型会进行多步推理并开发独特的算法，表明其存在一种与人类认知不同的“潜意识”处理形式。

MEME · CL_55094 · May 27 · 17:20

开发者开始MCP实习，瞄准潜在论文

一位开发者在新岗位上专注于模型上下文协议（MCP），目标是将其与大型语言模型（LLMs）和自定义模拟器集成。这项工作有潜力发表一篇论文。该开发者还在为Kaggle Orbit Wars竞赛开发一个基线策略。

TOOL · CL_53235 · May 26 · 22:24

Google 停用 Gemini CLI；AlphaZero 击败 Stockfish

Google 将于 6 月 18 日停用其 Gemini CLI 工具，并敦促用户迁移到 Anti Gravity CLI。另外，DeepMind 的 AlphaZero 在经过大量训练后，以零败绩击败 Stockfish，展示了其显著的国际象棋对弈能力。

RESEARCH · CL_50825 · May 26 · 04:00

新AI方法应对不完美信息游戏

研究人员正在开发新的方法来应对具有不完美信息（imperfect information）的复杂游戏。一篇论文介绍了循环结构策略梯度（Recurrent Structural Policy Gradient, RSPG），这是一种用于部分可观察平均场博弈（partially observable mean field games）的新颖方法，其收敛速度比现有方法更快。另一项研究重新评估了策略梯度方法，发现像PPO这样更简单的算法可以与…

RESEARCH · CL_48958 · May 22 · 13:55

RL框架在Tamarin中自动化安全协议分析

研究人员开发了一个强化学习（RL）框架，以自动化和缩短使用Tamarin工具分析安全协议的过程。这种受AlphaZero启发的创新方法采用神经启发式来指导蒙特卡洛树搜索，并从已完成的子证明中学习。在16个案例研究上的评估表明，与现有方法相比，RL方法能够自动找到更多证明并生成更短的证明，从而显著减少了协议验证所需的人工努力。

TOOL · CL_46639 · May 20 · 20:22

Demis Hassabis的AI工作荣获诺贝尔化学奖

Demis Hassabis的开创性工作，包括AlphaGo、AlphaZero和AlphaFold，极大地推动了人工智能及其在科学中的应用。他的贡献于2024年与John Jumper和David Baker共同获得了诺贝尔化学奖。

RESEARCH · CL_06877 · Apr 28 · 04:00

新的MCTS策略通过方差感知改进蒙特卡洛树搜索

研究人员开发了一种名为Inverse-RPO的新方法，用于系统地推导基于先验的蒙特卡洛树搜索（MCTS）的树策略。该方法建立在将MCTS视为正则化策略优化问题的框架之上，提供了一种将现有的无先验UCBs扩展为基于先验的UCTs的方法。使用此方法推导出的新的方差感知先验UCTs，在各种基准测试中表现优于标准的PUCT策略，且计算成本没有增加。还提供了对mctx库的扩展，以支持这些新策略并鼓励进一步的研究。

RESEARCH · CL_08361 · Apr 27 · 23:48

Claude Opus 4.7 在人工智能研究加速基准测试中领先前沿代理

一篇新研究论文提出了一个评估人工智能自主实现机器学习管道能力的基准，旨在检测递归自我改进的早期迹象。前沿编码代理的任务是在三小时内为Connect Four创建一个AlphaZero风格的管道。Claude Opus 4.7表现出卓越的性能，在大多数试验中优于外部求解器，而GPT-5.4则表现出异常的时间预算使用模式。

SIGNIFICANT · CL_05724 · Apr 27 · 17:24

DeepMind 创始人 David Silver 为无需人类数据的 AI 筹集了 11 亿美元

Ineffable Intelligence，一家由前 DeepMind 研究员 David Silver 创立的新 AI 实验室，已获得 11 亿美元的融资。该公司旨在开发一种“超级学习者”，它能够通过强化学习自主获取知识和技能，而不依赖于人类生成的数据。Silver 以其在 AlphaZero 上的工作而闻名，他希望创造一种能够从自身经验中发现所有智能的 AI。本轮融资由 Sequoia Capital 和 Lightspeed …

SIGNIFICANT · CL_05674 · Apr 27 · 14:15

DeepMind的AlphaGo负责人David Silver推出Ineffable Intelligence，获得Sequoia投资

David Silver，DeepMind的AlphaGo及其他AI项目的关键人物，已成立一家名为Ineffable Intelligence的新研究实验室。该实验室旨在创建一个“超级学习者”，通过直接经验而非现有数据的预训练来获取知识。这种根植于强化学习的方法，旨在使AI能够在科学和数学领域做出新颖的发现。

RESEARCH · CL_04640 · Mar 29 · 13:00

专家称，尽管在编码方面有很强的能力，但大型语言模型在玩电子游戏方面仍有困难

尽管在编码等领域取得了快速进展，但大型语言模型（LLMs）在玩电子游戏方面却表现出明显的局限性。虽然一些模型在特定游戏中取得了一定的成功，但它们的表现通常很慢，容易出错，并且需要大量的定制支持。专家认为，编码结构化、即时反馈的循环与电子游戏复杂、通常非结构化且对空间要求高的特性形成鲜明对比，而大型语言模型在处理这些方面存在困难。

COMMENTARY · CL_04656 · Oct 1 · 17:00

Andrej Karpathy 讨论 Sutton 对 LLM 未能体现“苦涩教训”的批评

Andrej Karpathy 讨论了 Geoffrey Hinton 参与的一个播客，Hinton 质疑了人们普遍认为大型语言模型 (LLM) 完全体现了他的“苦涩教训”原则的观点。Hinton 认为 LLM 大量依赖有限的、人类生成的数据，这引发了对偏见和未来局限性的担忧。他将此与他设想的“儿童机器”进行了对比，这种机器通过动态世界互动进行学习，类似于动物的学习方式，而无需对人类文本进行广泛的预训练。Karpathy 同意当前的 …

TOOL · CL_17780 · Jul 2 · 05:38

业余爱好者瞄准使用机器学习赢得Trackmania的每日杯赛

本文详细介绍了一个旨在开发机器学习程序，使其能够在没有任何先验地图知识的情况下赢得Trackmania“每日杯赛”第一组比赛的项目。作者的动机是探索最先进的机器学习技术，这些技术可以由业余爱好者在一台计算机上实现，这与当前需要海量数据集和处理能力的模型形成对比。他们计划利用TMInterface等工具来处理前代游戏Trackmania Nations Forever，以实现这一目标。