实体 Monte Carlo tree search

Monte Carlo tree search

PulseAugur coverage of Monte Carlo tree search — every cluster mentioning Monte Carlo tree search across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 35

发布 · 30天

90 天内 0

论文 · 30天

90 天内 35

层级分布 · 90 天

主题

论文 35
其他 21
模型发布 9
基础设施 3
安全 1
产品 1

时间线

2026-05-08 research_milestone A new paper presents a finite-time analysis for MCTS in continuous POMDP planning, offering theoretical guarantees. 来源

情绪 · 30 天

11 天有情绪数据

最近 · 第 1/2 页 · 共 35 条

RESEARCH · CL_129436 · Jul 7 · 04:00

新方法增强多模态工业异常检测 · 已追踪2个来源

研究人员开发了两种不同的方法来改进多模态工业异常检测。第一种方法，调谐反向蒸馏（TRD），利用多分支设计和跨模态调谐器来增强正常特征的学习，同时有效检测不同模态的异常。第二种方法，全球逻辑与局部搜索（GLLS），是一个无训练框架，利用大型多模态模型和蒙特卡洛树搜索进行可验证的异常检测，在推理上下文中组织参考和规范。这两种方法都旨在推进工业环境中识别缺陷的最新技术水平。
RESEARCH · CL_128426 · Jul 6 · 17:36

新的图稀疏采样算法解决了连续规划的挑战

研究人员推出了一种新颖的在线规划算法 Graph Sparse Sampling (GSS)，旨在解决连续域中不确定性规划的计算挑战。与可能面临随着前瞻深度呈指数级增长采样预算的传统蒙特卡洛树搜索 (MCTS) 方法不同，GSS 在多个决策之间共享采样到的未来。这种方法创建了一个分支自由的图结构，便于 GPU 加速，并使用启发式方法来集中计算。该算法在涉及长视界和连续控制的模拟中，已证明比基于树的规划器有显著的性能提升。
RESEARCH · CL_130604 · Jul 4 · 00:00

Hugging Face论文详述用于机器人技术的VLA模型改进

Hugging Face的两篇新研究论文探讨了视觉-语言-动作（VLA）模型的进展。第一篇论文介绍了LingBot-VLA 2.0，通过扩展其训练数据以包含多样化的机器人配置和人类视频，提高了泛化能力，并增强了其动作空间以涵盖复杂操作的全身运动。第二篇论文提出了SVA，一个通过蒙特卡洛树搜索和Q值模型将动作生成与后果评估解耦，从而改进冻结VLA模型的框架，证明该方法可以以更低的延迟超越更大的模型。
TOOL · CL_123089 · Jul 2 · 15:49

新的模糊测试技术发现超过 1,000 个意外的 LLM 代理意图

研究人员开发了一种名为 SkillFuzz 的新方法，用于识别大型语言模型 (LLM) 代理中由多个技能组合可能产生的意外目标或“隐式意图”。该方法将技能组合发现视为一个模糊测试问题，在执行前使用规划产物来暴露代理意图，并使用无技能基线作为预言机。SkillFuzz 采用蒙特卡洛树搜索来优先处理潜在冲突的技能组合，成功发现了超过 1,000 个不同的隐式意图，并验证了高比例的高风险组合。
TOOL · CL_117502 · Jun 30 · 04:00

新AI方法将算法设计建模为技能调度

研究人员开发了AlgoSkill，这是一种新颖的算法设计方法，它将该过程建模为使用专业技能库的顺序决策。这种方法与现有的通常隐式处理算法生成的LLM技术形成对比。AlgoSkill采用学习到的调度器和蒙特卡洛树搜索控制器，在编译、测试和复杂性分析的验证反馈的指导下，探索技能序列。实验表明，在竞争性编程和组合优化基准测试中，AlgoSkill的表现优于直接LLM生成和其他提示方法。
RESEARCH · CL_115314 · Jun 26 · 11:35

新的LVDR框架为技能评估提供可解释的视觉推理

研究人员推出了一种名为潜在视觉扩散推理（LVDR）的新框架，旨在为技能活动评估提供可解释的、循序渐进的视觉推理。通过整合关键点引导的蒙特卡洛树搜索（MCTS），LVDR旨在超越现有模型的黑箱性质。该框架不仅提高了在体育和外科领域评估表现的准确性，还能可视化导致其判断的关键推理序列。
TOOL · CL_111758 · Jun 26 · 04:00

新系统 KernelPro 使用 LLM 自主优化 GPU 内核代码

研究人员开发了 KernelPro，一个旨在优化大型语言模型 GPU 内核代码的自主系统。该系统集成了 LLM 代码生成、硬件剖析器反馈和专用分析工具，以迭代地提高性能。KernelPro 引入了新颖的组件，例如用于可操作指导的语义反馈算子、用于高效瓶颈分析的两阶段工具调用架构，以及直接的 CuTe 源级代码生成。该系统在基准数据集上展示了显著的加速，并显示出优于专家优化内核的改进，同时还关注能源效率。
TOOL · CL_111650 · Jun 26 · 04:00

几何感知MCTS框架在组合几何领域取得新的最佳已知结果

研究人员开发了一种新颖的几何感知蒙特卡洛树搜索（MCTS）框架，以解决组合几何中的复杂极值问题。该新方法通过严格执行几何约束和利用几何对称性，有效解决了传统方法的稀疏奖励和计算限制问题。该框架在多个问题上取得了新的最佳已知结果，包括“三点不共线”问题和“最小完备集”问题，证明了其在发现新配置方面的适应性。
TOOL · CL_116089 · Jun 24 · 21:34

几何感知MCTS框架在组合几何问题上创下新纪录

研究人员开发了一个几何感知蒙特卡洛树搜索（MCTS）框架，以解决组合几何中的复杂问题。这种新方法通过严格执行几何约束和降低计算复杂度，克服了现有求解器和AI模型的局限性。该框架在多个问题上取得了新的最佳已知结果，包括为“三点不共线”问题找到更大的配置，并为“最小完备集”问题提供了改进的上界。
RESEARCH · CL_105114 · Jun 22 · 16:13

新研究通过子句级奖励和分步编排改进文本到SQL生成

两篇新研究论文介绍了改进文本到SQL生成的先进方法。EXPO-SQL 专注于在强化学习中提供细粒度的子句级奖励，以更好地指导生成正确的SQL查询。而 SQLConductor 则采用分步编排学习框架，利用蒙特卡洛树搜索和稳定性估计来组合专门的模块，以处理复杂的数据库查询，从而实现高执行准确性和泛化能力。
RESEARCH · CL_95875 · Jun 16 · 03:06

新的MODE-RAG系统解决多模态AI生成中的幻觉问题

研究人员推出了一种新颖的多智能体系统MODE-RAG，旨在对抗多模态检索增强生成（M-RAG）系统中的幻觉和虚构。该系统利用变分自由能（VFE）和内部注意力状态来动态管理干预，将高风险查询路由给专门的智能体。这些智能体采用蒙特卡洛树搜索进行因果推导和logit扰动以减少谄媚，并设有专门的纠错和验证智能体。创建了一个名为ModeVent的新数据集来评估该系统，结果显示M-RAG的鲁棒性得到了显著提升。
TOOL · CL_106629 · Jun 13 · 13:48

AI发现更优的格约简策略，超越LLL算法

研究人员开发了一种深度强化学习方法来发现新的格基约简策略，其性能优于传统的Lenstra-Lenstra-Lovász (LLL)算法。通过将格约简构建为马尔可夫决策过程，并采用类似AlphaZero的、带有蒙特卡洛树搜索的自我博弈流程，该系统（命名为DeltaStar）学会了以更少的操作实现更好的约简。值得注意的是，DeltaStar在无需重新训练的情况下，能够有效地泛化到更高维度和未见的模。
RESEARCH · CL_93268 · Jun 13 · 13:48

AI发现更优的格规约策略，超越LLL算法

研究人员开发了一种新的方法，使用深度强化学习来发现更优的Lenstra-Lenstra-Lovász (LLL)算法策略，LLL算法是计算机科学中格基规约的基本工具。通过将格规约视为马尔可夫决策过程，并采用类似AlphaZero的自我博弈流程结合蒙特卡洛树搜索，他们训练了一个名为DeltaStar的策略。这种使用低维格开发的新策略比传统的LLL算法需要更少的操作，并且在无需重新训练的情况下，能够零样本泛化到更高维度和未见的模。
RESEARCH · CL_90838 · Jun 12 · 12:55

新的COMET算法通过面向对象的方法增强AI规划

研究人员推出了一种新颖的基于模型的强化学习规划算法COMET。COMET在基于槽的潜在空间中利用蒙特卡洛树搜索，将一个固定的无监督对象中心编码器与一个基于Transformer的世界模型配对。它包含一个独特的动作槽融合机制和对象因果注意力，以将决策集中在相关实体上。在跨不同任务的早期训练阶段，COMET在与现有的对象中心和整体基线相比，表现出了卓越的性能。
TOOL · CL_79200 · Jun 6 · 01:27

新的人工智能方法使用结构化奖励增强 HDL 代码摘要

研究人员开发了 ROSUM-MCTS，一种使用大型语言模型总结硬件描述语言 (HDL) 代码的新方法。该方法受蒙特卡洛树搜索的启发，并结合了结构化探索和强化学习来改进摘要。ROSUM-MCTS 在功能正确性、内容充分性和流畅性之间取得平衡，在 VHDL 和 Verilog 数据集上表现优于基线方法，并对代码修改表现出鲁棒性。
TOOL · CL_69336 · Jun 3 · 17:22

AlphaZero 奥赛罗训练困境促使超参数分析

一位用户正在为 6x6 版奥赛罗训练 AlphaZero 模型，但遇到了性能问题。尽管模型之间相互改进，但它们并不比基准代理显著更好，对贪婪代理的胜率低于 10%。用户已经分析了训练数据，包括价值损失、预测熵和策略分歧，并正在寻求关于超参数调整的建议，以解决模型的糟糕性能。
RESEARCH · CL_65390 · Jun 1 · 12:17

新的S3TS算法解决了能源行业的不确定性规划问题

研究人员开发了一种名为随机场景结构化树搜索（S3TS）的新算法，旨在解决能源行业中复杂的规划挑战。该算法能够有效处理非线性系统模型和不确定性，例如可再生能源整合带来的不确定性，而以往的方法难以同时解决这些问题。在模拟的能源调度场景中，S3TS表现出接近最优的性能，与现有算法相比，尤其是在高度非线性的情况下，显著降低了成本。
TOOL · CL_92706 · Jun 1 · 00:00

新AI算法2FFS改进树搜索中的最优行动识别

研究人员引入了一种新颖的双保真度树搜索算法，称为2FFS，旨在改进随机极小极大树中的最优行动识别。该算法解决了计算成本低但有偏见的启发式评估与成本高但准确的模拟之间的权衡问题，这是蒙特卡洛树搜索（MCTS）等方法在AI规划中面临的常见挑战。通过自适应地平衡这两个保真度级别，2FFS旨在以比现有基线少得多的样本和操作实现固定置信度的正确性。
TOOL · CL_58700 · May 29 · 04:00

LLM驱动的符号回归方法助力科学发现

研究人员开发了一种名为“Influence-Guided Symbolic Regression”（IGSR）的新型科学发现方法，该方法利用大型语言模型（LLMs）。IGSR通过生成候选基函数并使用细粒度影响分数进行评估来增强方程发现，这些分数量化了每个项对准确性的贡献。与传统的标量指标相比，这允许更系统地优化模型结构。该方法在各种基准测试中被证明是有效的，甚至识别出一种新的生物学关系，并随后通过实验得到了验证。
TOOL · CL_56425 · May 28 · 04:00

新框架加速量子神经网络架构的优化搜索

研究人员开发了一个名为 MZeQAS 的新框架，用于高效搜索变分量子算法（VQA）的最优架构。该方法利用基于量子神经切线核（Quantum Neural Tangent Kernel）的零样本代理模型，无需完全训练即可估算候选电路的性能，从而显著降低了计算成本。MZeQAS 将这种基于代理的估算与蒙特卡洛树搜索（Monte Carlo Tree Search）相结合，以发现高性能的 VQA 架构，在近期的量子设备上，其效率和解决方案质…

新方法增强多模态工业异常检测 · 已追踪2个来源

新的图稀疏采样算法解决了连续规划的挑战

Hugging Face论文详述用于机器人技术的VLA模型改进

新的模糊测试技术发现超过 1,000 个意外的 LLM 代理意图

新AI方法将算法设计建模为技能调度

新的LVDR框架为技能评估提供可解释的视觉推理

新系统 KernelPro 使用 LLM 自主优化 GPU 内核代码

几何感知MCTS框架在组合几何领域取得新的最佳已知结果

几何感知MCTS框架在组合几何问题上创下新纪录

新研究通过子句级奖励和分步编排改进文本到SQL生成

新的MODE-RAG系统解决多模态AI生成中的幻觉问题

AI发现更优的格约简策略，超越LLL算法

AI发现更优的格规约策略，超越LLL算法

新的COMET算法通过面向对象的方法增强AI规划

新的人工智能方法使用结构化奖励增强 HDL 代码摘要

AlphaZero 奥赛罗训练困境促使超参数分析

新的S3TS算法解决了能源行业的不确定性规划问题

新AI算法2FFS改进树搜索中的最优行动识别

LLM驱动的符号回归方法助力科学发现

新框架加速量子神经网络架构的优化搜索