实体 Soft Actor--Critic

Soft Actor--Critic

PulseAugur coverage of Soft Actor--Critic — every cluster mentioning Soft Actor--Critic across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 27

发布 · 30天

90 天内 0

论文 · 30天

90 天内 27

层级分布 · 90 天

主题

论文 27
其他 17
产品 5
安全 3
基础设施 2
模型发布 1

时间线

2026-05-26 research_milestone Researchers introduce modifications to Soft Actor-Critic enabling it to match PPO performance for legged robot locomotion. 来源

情绪 · 30 天

5 天有情绪数据

最近 · 第 1/2 页 · 共 27 条

TOOL · CL_119390 · Jun 30 · 13:03

AI框架助力无人机在颠簸海况下实现100%着陆成功率

研究人员开发了一种新颖的框架，用于无人机（UAV）在海上平台上的自主着陆，解决了恶劣海况带来的挑战。该系统采用了两个独立的深度强化学习（DRL）代理：一个使用软Actor-Critic（SAC）进行着陆甲板的主动波浪补偿，另一个负责无人机的最终进近。模拟显示，即使在恶劣条件下，平台也能在1度以内保持水平稳定，着陆成功率达到100%。
RESEARCH · CL_117378 · Jun 29 · 13:59

强化学习优化风电场数据中心能源使用

本文探讨了使用强化学习（RL）优化与风电场相结合的数据中心运营。研究人员开发了一个模拟框架，用于测试RL代理进行工作负载转移，目标是在考虑削减的情况下最大限度地利用风能。研究发现，尽管像Proximal Policy Optimization（PPO）和Soft Actor-Critic（SAC）这样的RL代理表现强劲，但由于其在线决策的局限性，它们仍落后于离线优化器。论文还评估了模仿学习和奖励塑形作为提高RL性能的方法。
TOOL · CL_111718 · Jun 26 · 04:00

新型混合控制器增强了流体流动中微型机器人的细胞操控能力

研究人员开发了一种新颖的混合控制器，用于在流体环境中进行微型机器人的细胞操控。该控制器结合了模型预测控制（MPC）系统和使用Soft Actor-Critic（SAC）训练的强化学习（RL）策略。RL策略提供了一个有界的速度校正，仅在与细胞接触时应用，与传统的MPC或PID控制器相比，在时变流条件下增强了鲁棒性和跟踪精度。该系统展示了泛化能力，在对特定参考曲线进行训练后，在未见过的轨迹上表现良好。
RESEARCH · CL_99596 · Jun 18 · 11:07

新的AI方法通过基于注意力的强化学习优化增材制造

研究人员开发了一种新颖的方法，通过集成多头注意力机制与软Actor-Critic (SAC) 算法来优化增材制造过程。该方法利用连续动作空间和基于注意力的特征提取器，解决了传统强化学习 (RL) 的局限性，提高了智能体捕捉细微输入变化的能力。与DQN、PPO和TD3等标准RL技术相比，增强的SAC算法在激光粉末床熔融的孔隙率预测和工艺参数优化方面表现出更快的收敛速度和更高的奖励。
TOOL · CL_98057 · Jun 18 · 04:00

新的DRL框架优化城市电动汽车车队控制

研究人员开发了一个新的城市电动汽车（EV）车队控制框架，该框架使用分布鲁棒强化学习（DRL）来处理不确定的需求和出行时间。这种名为PD-RSAC的方法可以优化调度、重新定位和充电决策，同时严格遵守充电器和馈线容量限制。使用纽约市出租车数据进行的实验表明，PD-RSAC将净利润显著提高到122万美元，优于各种启发式和强化学习基线。
RESEARCH · CL_106759 · Jun 17 · 00:00

新的大语言模型训练方法优化数据调度以提高效率和性能

研究人员开发了通过先进数据调度技术优化大语言模型（LLM）训练的新方法。一种方法是整体数据调度器（HDS），它使用多目标强化学习在预训练期间动态调整数据混合，从而在 The Pile 和 MMLU 等基准测试中显著提高训练效率和模型性能。另一种方法是自适应数据调度（ADS），它通过从统一数据采样转向语义集群和策略边界样本的自适应分布，专注于改进训练后强化学习，在推理基准测试中显示出优势。此外，一种使用精选数据集和最小 GRPO 设置的…
TOOL · CL_82588 · Jun 10 · 04:00

量子电路增强金融强化学习稳定性

研究人员开发了FPQC-SAC，一种新颖的软Actor-Critic (SAC)算法变体，旨在提高低信噪比金融强化学习任务的稳定性。该方法在表示层面引入参数化量子电路 (PQC) 来约束特征传播，从而减轻了由嘈杂市场数据放大的误差。在实际投资组合管理模拟中，与标准SAC相比，FPQC-SAC的累积回报显著提高了66.89%，并且比其他深度强化学习基线高出约27%。
TOOL · CL_79910 · Jun 9 · 04:00

新的强化学习框架通过自定步调学习训练自动超级摩托车

研究人员开发了一个新的框架，用于在模拟环境中训练自动驾驶超级摩托车。该方法结合了软Actor-Critic (SAC) 和自定步调课程深度强化学习 (SPDL)，后者可自动创建难度递增的训练任务。该系统旨在解决摩托车控制的独特挑战，例如平衡和倾斜角度管理，这些比四轮车辆更复杂。初步结果表明，与标准的SAC相比，SPDL在单圈时间和稳定性方面效率更高，性能更好。
TOOL · CL_77377 · Jun 8 · 04:00

Transformer critic 提升了强化学习在长时任务中的表现

研究人员开发了一种新的序列条件判别器，用于 Soft Actor-Critic (SAC)，该判别器使用轻量级 Transformer 来模拟轨迹上下文。这种方法集成了 N-步回报而无需重要性采样，使其能够捕获长时和稀疏奖励问题的时序结构。该方法在局部运动基准测试中，尤其是在长轨迹控制任务上，展示了比标准 SAC 和其他基线一致的性能提升。
RESEARCH · CL_79127 · Jun 7 · 00:20

新的强化学习算法优化股票交易执行

研究人员开发了一种名为TT-DAC-PS的新型强化学习算法，用于优化股票交易执行。这种确定性Actor-Critic架构采用了多种先进技术，包括双目标、策略平滑和保守Q正则化，以最小化高估误差。该算法在美国股票数据上进行了测试，并证明其在减少执行成本方面优于传统方法和其他强化学习基线。
TOOL · CL_74548 · Jun 6 · 06:00

AI机器人仅通过模拟器训练掌握空气曲棍球

研究人员开发出一种AI机器人，无需任何现实世界练习即可与人类进行空气曲棍球比赛，完全依赖模拟器训练。该项目是英属哥伦比亚大学的一项研究生论文，涉及创建一个自定义模拟器，该模拟器考虑了不平坦的表面和不可预测的反弹等现实世界物理变化。该机器人使用小型神经网络来预测球的轨迹，并使用摄像头进行精确的对象跟踪，使其能够适应游戏的动态。
TOOL · CL_68536 · Jun 3 · 04:00

新的强化学习算法为物理系统增加了稳定性保证

研究人员开发了一种名为LC-SAC的新型强化学习算法，旨在为安全关键型物理系统提供稳定性保证。该算法将Lyapunov稳定性理论与软Actor-Critic方法相结合，利用Koopman算子理论学习系统动力学的线性代理模型。该方法将候选控制Lyapunov函数作为惩罚项纳入Actor更新中，将约束执行重点放在罕见但严重的失稳事件上。
TOOL · CL_65964 · Jun 2 · 04:00

HVAC控制成本量化，识别回放缓冲区偏差

研究人员使用sbsim上的软Actor-Critic (SAC) 量化了HVAC控制可达到的最低能源成本，发现其为每天35.51美元。他们发现，用预填充的转换初始化回放缓冲区，而不是从空开始，会显著增加4.7%的成本。研究还强调，有效的规划范围比通常假设的要短得多，并且设备最小功率，而不是算法设计，是节省成本的主要限制因素。
TOOL · CL_65724 · Jun 2 · 04:00

强化学习采用动态熵调优以改进四旋翼飞行器控制

研究人员调查了动态熵调优在强化学习用于四旋翼飞行器控制中的影响。他们将随机策略（优化动作的概率分布）与确定性策略（选择单一动作）进行了比较。该研究使用了Soft Actor-Critic (SAC)算法来处理随机策略，并使用Twin Delayed Deep Deterministic Policy Gradient (TD3)来处理确定性策略。研究结果表明，动态熵调优通过减轻灾难性遗忘和提高探索效率，对四旋翼飞行器控制产生了积极影响。
TOOL · CL_65723 · Jun 2 · 04:00

四旋翼控制系统采用软Actor-Critic以提升性能

研究人员开发了一种利用强化学习（RL）方法，特别是软Actor-Critic（SAC）算法的四旋翼飞行器新型控制系统。该方法侧重于控制四旋翼的推力矢量，而不是直接操纵单个旋翼的速度。RL代理确定z轴上的推力百分比和期望的滚转角和俯仰角，然后由PID控制器处理以设置电机RPM。这种新的推力矢量控制策略与传统的RPM控制方法相比，显示出更快的训练时间和更平滑、更精确的路径跟踪。
TOOL · CL_56087 · May 28 · 04:00

新的PIRS方法通过物理信息奖励增强建筑能源管理

研究人员开发了PIRS（Physics-Informed Reward Shaping，物理信息奖励塑造），一种用于通过深度强化学习优化建筑能源管理的新颖方法。PIRS用ISO 7730预测平均投票（PMV）公式取代了临时的舒适度代理，将舒适度信号建立在已建立的物理学基础上。这种方法增强了奖励的可解释性，并提供了一个符合标准的舒适度代理，而无需更改学习管道的其他组件。在CityLearn v2.1.2中的评估表明，PIRS在成本、碳排…
TOOL · CL_56084 · May 28 · 04:00

LLM框架OccuReward提升建筑能源管理中的人口公平性

研究人员开发了OccuReward，一个利用LLM为电网互动建筑中的能源管理塑造奖励函数的框架，旨在改善人口公平性。该系统利用Gemini API迭代优化奖励逻辑和权重，关注住户舒适度。初步结果显示，老年女性的满意度最低，但在三轮优化后，各个人口群体的满意度均显著提高，同时降低了能源成本。
TOOL · CL_51004 · May 26 · 04:00

改进的软Actor-Critic算法在机器人运动方面达到PPO性能水平

研究人员开发了一种改进版的软Actor-Critic (SAC)算法，该算法在训练腿式机器人方面达到了与Proximal Policy Optimization (PPO)算法相媲美的性能。这种新方法通过允许SAC重用过去的经验来解决其样本效率低的问题，使其适用于模拟到现实的迁移以及在物理硬件上进行在线学习。这些改进包括策略初始化、Critic目标和回报估计方面的优化，使得SAC能够在各种机器人平台和运动任务上稳定地进行大规模训练。
RESEARCH · CL_49370 · May 17 · 07:50

深度学习框架增强投资组合优化策略

研究人员正在开发用于投资组合优化的先进深度学习框架，旨在提高金融市场表现。一种方法使用神经网络直接优化夏普比率和CVaR等金融指标，实现了显著优于传统方法和标普500的表现。另一种方法采用具有Soft Actor-Critic的深度强化学习，在全球市场动态配置资产，在不确定时期显示出潜力。第三个框架整合了LSTMs、GATs和金融新闻的情感分析，创建每日配置，在一个较小的股票范围内跑赢基准。
TOOL · CL_22081 · May 8 · 04:00

研究人员修复强化学习策略优化中的合成数据故障

研究人员已识别并解决了基于模型的策略优化（MBPO）中的算法故障，MBPO是强化学习中使用的技术。研究发现，MBPO与Soft Actor-Critic（SAC）等其他方法相比，由于尺度不匹配和残差下一状态预测，可能表现不佳，这会导致Critic低估和不可靠的合成数据。引入了一种名为Fixing That Free Lunch（FTFL）的新方法，该方法结合了目标归一化和直接下一状态预测来解决这些问题，在多个基准任务上表现得到改善。

AI框架助力无人机在颠簸海况下实现100%着陆成功率

强化学习优化风电场数据中心能源使用

新型混合控制器增强了流体流动中微型机器人的细胞操控能力

新的AI方法通过基于注意力的强化学习优化增材制造

新的DRL框架优化城市电动汽车车队控制

新的大语言模型训练方法优化数据调度以提高效率和性能

量子电路增强金融强化学习稳定性

新的强化学习框架通过自定步调学习训练自动超级摩托车

Transformer critic 提升了强化学习在长时任务中的表现

新的强化学习算法优化股票交易执行

AI机器人仅通过模拟器训练掌握空气曲棍球

新的强化学习算法为物理系统增加了稳定性保证

HVAC控制成本量化，识别回放缓冲区偏差

强化学习采用动态熵调优以改进四旋翼飞行器控制

四旋翼控制系统采用软Actor-Critic以提升性能

新的PIRS方法通过物理信息奖励增强建筑能源管理

LLM框架OccuReward提升建筑能源管理中的人口公平性

改进的软Actor-Critic算法在机器人运动方面达到PPO性能水平

深度学习框架增强投资组合优化策略

研究人员修复强化学习策略优化中的合成数据故障