AI触觉技术公司塔山科技获数亿元融资 · 追踪到1个来源

北京塔山科技有限公司（Tashan Technology）是一家专注于AI触觉感知的公司，已成功获得数亿元人民币的B轮融资。本轮融资由君石电子领投，并吸引了其他行业参与者。资金将用于推进其触觉传感器、芯片和训练平台的研发。塔山科技被认为是英伟达（NVIDIA）的首个全球触觉仿真合作伙伴，已开发出从芯片到应用解决方案的全栈技术体系，在蓬勃发展的具身智能（embodied AI）领域中，其定位为关键的基础设施提供商。

TOOL · CL_123108 · Jul 3 · 04:00

新的MAGIK框架支持RL智能体进行零样本知识迁移

研究人员开发了MAGIK，一个旨在增强强化学习（RL）智能体知识迁移能力的新框架。该系统使RL智能体能够在不直接与目标环境交互的情况下，将其从先前学习的任务中获得的知识应用于新的、类似的任务。MAGIK利用想象机制在任务之间映射实体，从而实现现有策略的重用。在MiniGrid和MuJoCo环境中进行的实验表明，MAGIK能够以最少的人工标注示例有效地实现零样本迁移，并且优于相关的基线方法。

TOOL · CL_121469 · Jul 2 · 04:00

苍蝇大脑拓扑结构启发了鲁棒的机器人导航神经网络

研究人员开发了一种名为FLYNN的新型循环神经网络，该网络直接模仿了果蝇大脑的神经结构。该网络在模拟环境中展现出强大的导航能力，其性能与同等规模的传统网络相当。值得注意的是，与传统网络不同的是，FLYNN在面对不熟悉的数据和感官剥夺时表现出更强的鲁棒性，即使在完全失去视觉输入的情况下也能保持功能。

RESEARCH · CL_117645 · Jun 30 · 04:00

新研究应对大语言模型对齐、安全和优化挑战

研究人员正在探索改进大语言模型（LLM）对齐和可靠性的新方法。一项研究发现字节对编码（BPE）分词中存在一个漏洞，该漏洞可能被利用来绕过安全机制，导致多个模型系列产生有害输出。另一篇论文提出了一个名为HAL的框架，通过优化明确的、可解释的对话特征来诱导大语言模型产生类似人类的对话行为。此外，一个名为Object Aligner的新库提供了一种可配置的方法来评估JSON模式相似度，这对于大语言模型提示优化和工具使用非常有用。最后，对大语…

RESEARCH · CL_117291 · Jun 29 · 12:08

新的AIDA框架用有限数据改进视觉强化学习

研究人员开发了AIDA（面向域自适应的自适应想象），一个旨在改进在目标数据有限场景下视觉强化学习的新框架。该方法通过生成可靠且语义化的“想象回放”来增强稀缺的真实世界数据，从而解决了从模拟到现实的迁移挑战。AIDA利用一个对分布偏移敏感的判别器来截断不可靠的转换，并利用自洽性损失来惩罚状态重建中的差异，从而学习更鲁棒的状态表示。

RESEARCH · CL_111264 · Jun 25 · 03:48

新研究重新审视复杂强化学习空间中的动作分解 · 跟踪到2个来源

一篇新的研究论文探讨了在强化学习中处理复杂动作空间的方法，特别是那些结合了离散动作和连续动作的动作空间。该研究分析了不同算法和环境中的各种分解技术，并引入了两个新的并行环境 CoopPush 和 Hybrid-Shoot 来促进这项研究。研究结果表明，分支对决架构在计算和性能之间取得了良好的平衡，而自回归动作（Auto-Regressive actions）取得了最高的整体性能，尽管原生连续 SAC 尽管计算成本更高，但表现更优。

TOOL · CL_109001 · Jun 24 · 19:07

新的开源模拟器 MuJoFil 针对高保真视觉 RL 训练

一个名为 MuJoFil 的新开源模拟器已被开发出来，旨在解决现有工具（如 MuJoCo）在进行高保真视觉强化学习（RL）训练方面的局限性。MuJoFil 将 Nvidia 的 GPU 原生 Newton Physics Engine 与 Google 的 Filament 渲染引擎相结合，并对其进行了重大修改以实现原生 GPU 操作，从而能够进行并行模拟渲染。这种方法支持更易于访问和并行化的训练管道，支持 PBR 纹理和各种 3D …

RESEARCH · CL_107869 · Jun 22 · 20:52

新研究统一了PPO-Clip和KL-PPO算法

研究人员证明，近端策略优化（PPO）中的裁剪替代梯度可以通过每样本系数的Kullback-Leibler替代精确复制。这种等价性在训练过程的每一步都成立，包括整个内循环。在五个MuJoCo连续控制基准上的实证结果表明，两种方法产生了相同的训练曲线，这表明了对这两种常见PPO形式的统一视角。

RESEARCH · CL_99568 · Jun 18 · 15:36

新的CRAX基准测试加速了安全强化学习的评估

研究人员推出CRAX，这是一个旨在加速安全强化学习（RL）代理评估的新基准测试。CRAX使用MuJoCo XLA物理引擎构建，与基于CPU的基准测试相比，速度提升高达100倍，使其适用于机器人和自动驾驶等现实世界应用。该基准测试包含六个环境套件和三个特定代理任务，每个都有不同的难度级别。对六种流行的安全RL方法的初步评估表明，没有一种方法是普遍优越的，突显了性能和安全之间的权衡，并表明课程学习可以提高在更具挑战性场景中的性能。

TOOL · CL_87996 · Jun 12 · 17:04

Gemma-3 270M 经过微调，可用自然语言指令控制机器人

一位开发者对 Google 的 Gemma-3 270M 语言模型进行了微调，以控制模拟机器人。该模型经过训练，可以将自然语言指令翻译成 JSON 指令，用于在 MuJoCo 环境中进行移动和物体操作。此过程涉及使用 OpenAI 的 gpt-oss-120b 和 NVIDIA 的 nemotron-super-120b 等大型模型生成合成数据集。

TOOL · CL_84944 · Jun 11 · 04:00

能量守恒提高了模块化神经网络的鲁棒性

研究人员开发了一种新颖的方法，通过在模块边界强制执行能量守恒来提高模块化神经网络的鲁棒性。该方法确保激活能量（定义为特征向量的平方 L2 范数）在整个管道中保持恒定，从而防止误差放大。实验表明，在各种噪声条件下，这种能量守恒技术在保持准确性方面显著优于基线方法，甚至可以推广到实际的机器人应用。

RESEARCH · CL_79963 · Jun 9 · 04:00

新型AI控制器可在低功耗硬件上运行，比特数极少

研究人员开发了用于创建高效强化学习控制器的新方法，这些控制器可以在低功耗硬件上运行。一种方法，“学习量化连续控制器”，使用量化感知训练来创建每个权重和激活仅需要2-3比特的策略，在FPGA上实现微秒级推理时间和微焦耳级能耗。另一种方法，“可微分无权控制器”，学习逻辑电路，这些电路可以编译成FPGA兼容的电路，具有单时钟周期延迟和纳焦耳级能耗，同时保持与标准深度策略相当的性能并提供可解释的连接性。

TOOL · CL_87110 · Jun 6 · 00:00

新的 MuJoCo-Drones-Gym 模拟器增强了多无人机强化学习研究

研究人员开发了 MuJoCo-Drones-Gym，这是一个用于多无人机强化学习的开源模拟环境。它构建在 MuJoCo 物理引擎之上，提供 GPU 加速，并支持灵活的物理模型、动作接口和观察空间。该环境旨在解决物理保真度、多智能体能力以及深度强化学习所需的高吞吐量之间的权衡问题。

TOOL · CL_73372 · Jun 5 · 11:02

NTU团队从单张图像生成可用于仿真的3D资产

新加坡南洋理工大学（NTU）的研究人员开发了 PhysX-Anything 系统，该系统能够从单张图像生成具有物理模拟能力的3D资产。这项进展超越了仅仅创建视觉上逼真的3D模型，而是能够生成具有准确结构组件、关节关系、材料属性和功能行为的资产。该系统旨在通过自动化从单个输入图像推断物理属性，来显著降低机器人训练、AR/VR应用和工业仿真创建3D资产的成本和精力。

TOOL · CL_64927 · Jun 2 · 03:57

清华AIR发布UniLab，机器人训练速度提升10倍

清华大学AIR DISCOVER实验室的研究人员推出了UniLab，一个用于机器人强化学习训练的开源框架。这种新架构采用了异构方法，将物理模拟卸载到CPU，同时利用GPU进行策略训练，显著缩短了训练时间。UniLab在训练人形机器人方面实现了高达10倍的速度提升，并且兼容包括Mac在内的各种硬件，摆脱了对CUDA的依赖。

RESEARCH · CL_59225 · May 29 · 06:05

天机智能将在ICRA 2026展示新款Gento机器人

天机智能宣布将成为在维也纳举行的ICRA 2026的白金合作伙伴，届时将展示其新款Gento系列力控人形机器人平台。该公司将推出三款不同型号：Gento Luna，一款可折叠轮式机器人；Gento Skye，一款专为强化学习和具身AI研究设计的平台；以及Marvin Pro+M6S Lite，一款高精度固定基座机器人。演示内容将包括远程操作、数据收集和人机交互协作，以及关于其在力控和具身AI开发工具方面进展的技术讲座。

TOOL · CL_59129 · May 29 · 05:55

Interstellar Light Year 将在 ICRA 2026 上首次亮相 GAIA Hand 20

深圳 Interstellar Light Year Technology 将在维也纳举行的 ICRA 2026 会议上展示其 GAIA Hand 20，这是一款具有 20 个自由度的模块化机器人手。该机械手具有高度拟人化的设计、可选的触觉传感功能以及强大的功率重量比，仅重 790 克，同时可支持高达 15 公斤的负载。该公司还将展示其专有的微型关节模块，价格实惠，可降低构建机器人系统的成本。

TOOL · CL_56198 · May 28 · 04:00

新框架可视化AI控制中的运动阶段

研究人员开发了一个新框架，用于可视化深度强化学习（DRL）运动控制策略中的潜在运动阶段结构。该方法将聚类特征从仅状态观测扩展到包括动作和下一个状态，并引入了一种在最小化自转换的同时确定最佳聚类数量的技术。当应用于Ant-v5、HalfCheetah-v5和Walker2D-v5等环境时，与现有方法相比，所提出的方法成功识别出更清晰、更规则的阶段结构。

TOOL · CL_53753 · May 27 · 04:00

Q学习集成提高了离线上下文强化学习的性能

一篇新的研究论文探讨了将强化学习（RL）目标整合到离线上下文强化学习（ICRL）方法中的有效性。在GridWorld和MuJoCo环境中超过150个数据集的实验表明，与标准的算法蒸馏（AD）相比，直接优化RL目标平均将性能提高了约30%。在XLand-MiniGrid环境中，RL目标使AD的性能翻倍，并且在大多数测试场景中，在价值学习过程中增加保守性可以进一步提高结果。研究结果强调了将ICRL学习目标与RL的奖励最大化目标对齐的重要性。

TOOL · CL_53701 · May 27 · 04:00

新的视觉强化学习方法大幅缩短训练时间和计算需求

研究人员开发了一种名为随机解耦策略梯度（SDPG）的新方法，用于高效的在线策略视觉强化学习。该技术可快速端到端训练视觉运动控制策略，与现有方法相比，所需的计算资源和内存显著减少。SDPG 在视觉 MuJoCo 基准测试中，在训练时间、内存使用和奖励获取方面均表现出卓越的性能，并通过在物理硬件上进行仿真到现实的迁移得到了验证。