实体 Advantage Actor-Critic

Advantage Actor-Critic

PulseAugur coverage of Advantage Actor-Critic — every cluster mentioning Advantage Actor-Critic across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 5

发布 · 30天

90 天内 0

论文 · 30天

90 天内 5

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 5 条

TOOL · CL_123044 · Jul 3 · 04:00

新的CROF方法改进了潜能世界模型的检查点选择

研究人员开发了一种从潜能世界模型训练运行中选择最佳检查点的新方法，这对于优化基于模型的强化学习和模型预测控制至关重要。所提出的方法称为复合奖励可观测性分数（CROF），它使用源自最优控制理论的结构化验证时诊断。在Gymnasium的LunarLander v3上的测试中，CROF在预测闭环性能方面优于验证损失和RMSE等传统指标。所选的世界模型在用于训练A2C策略时，取得了比无模型基线显著更好的结果，同时所需的交互环境次数也大大减少。
RESEARCH · CL_79127 · Jun 7 · 00:20

新的强化学习算法优化股票交易执行

研究人员开发了一种名为TT-DAC-PS的新型强化学习算法，用于优化股票交易执行。这种确定性Actor-Critic架构采用了多种先进技术，包括双目标、策略平滑和保守Q正则化，以最小化高估误差。该算法在美国股票数据上进行了测试，并证明其在减少执行成本方面优于传统方法和其他强化学习基线。
TOOL · CL_53694 · May 27 · 04:00

深度强化学习算法在资源控制基准测试中难以超越校准基线

一项新的基准研究RLScale-Bench已被开发出来，用于评估用于自适应资源控制的深度强化学习（DRL）算法。研究发现，在各种工作负载下，一个经过适当校准的基于规则的自动扩展器在成本方面通常优于主流DRL算法。然而，DRL算法在处理突发流量和闪购流量方面显示出潜力。研究还强调，离散动作算法在避免约束违规方面明显优于连续动作算法，并且没有一种DRL算法在所有测试的工作负载中都占主导地位。
TOOL · CL_42140 · May 21 · 04:00

集成强化学习模型增强金融交易策略

研究人员开发了一种用于金融交易的集成强化学习（RL）方法，将A2C、PPO和SAC等RL算法与SVM、决策树和逻辑回归等传统分类器相结合。这种混合方法旨在改善风险-回报权衡并减少与独立RL模型相比的跌幅。研究发现，集成策略的性能始终优于单个模型，尽管性能对方差阈值参数\(\tau\)敏感，这表明需要动态调整。
TOOL · CL_16153 · May 5 · 04:00

多智能体强化学习确保无人机集群间隔，但可能偏向更强的配置

研究人员开发了一个多智能体强化学习框架，以确保小型无人机系统（sUASs）集群间的安全间隔。提出的基于注意力机制的近端策略优化优势Actor-Critic（PPOA2C）方法允许集群在保持隐私的同时独立训练其策略。实验表明，PPOA2C策略可以实现安全间隔，并优于基于规则的基线，尽管均衡可能偏向于具有更强配置的集群，这凸显了对公平感知冲突管理的需求。

新的CROF方法改进了潜能世界模型的检查点选择

新的强化学习算法优化股票交易执行

深度强化学习算法在资源控制基准测试中难以超越校准基线

集成强化学习模型增强金融交易策略

多智能体强化学习确保无人机集群间隔，但可能偏向更强的配置