实体 SOFT ACTOR-CRITIC REINFORCEMENT LEARNING FOR ROBOTIC MANIPULATOR WITH HINDSIGHT EXPERIENCE REPLAY

SOFT ACTOR-CRITIC REINFORCEMENT LEARNING FOR ROBOTIC MANIPULATOR WITH HINDSIGHT EXPERIENCE REPLAY

PulseAugur coverage of SOFT ACTOR-CRITIC REINFORCEMENT LEARNING FOR ROBOTIC MANIPULATOR WITH HINDSIGHT EXPERIENCE REPLAY — every cluster mentioning SOFT ACTOR-CRITIC REINFORCEMENT LEARNING FOR ROBOTIC MANIPULATOR WITH HINDSIGHT EXPERIENCE REPLAY across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 8

发布 · 30天

90 天内 0

论文 · 30天

90 天内 8

层级分布 · 90 天

关系

used by Soft Actor--Critic 70%

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 8 条

TOOL · CL_50843 · May 26 · 04:00

强化学习优化电动汽车充电以降低排放

研究人员开发了一种新的考虑排放的强化学习策略来优化电动汽车充电。该方法基于Soft Actor Critic算法，优先减少碳排放并最大化可再生能源使用。该策略在EV2Gym平台上进行了测试，显示出显著的减排效果，在高可再生能源渗透率情景下，与无控制充电相比，每千瓦时二氧化碳减排高达87%。
TOOL · CL_22081 · May 8 · 04:00

研究人员修复强化学习策略优化中的合成数据故障

研究人员已识别并解决了基于模型的策略优化（MBPO）中的算法故障，MBPO是强化学习中使用的技术。研究发现，MBPO与Soft Actor-Critic（SAC）等其他方法相比，由于尺度不匹配和残差下一状态预测，可能表现不佳，这会导致Critic低估和不可靠的合成数据。引入了一种名为Fixing That Free Lunch（FTFL）的新方法，该方法结合了目标归一化和直接下一状态预测来解决这些问题，在多个基准任务上表现得到改善。
TOOL · CL_21933 · May 8 · 04:00

大型语言模型裁判评估代理股票预测器，通过强化学习提高准确性

研究人员开发了一个新颖的框架，通过利用大型语言模型作为裁判来评估代理股票预测系统。该系统将性能分解为六个特定维度，包括市场状态检测和风险校准，提供了比传统汇总指标更细致的评估。大型语言模型裁判，包括 GPT 5.4、Claude 4.6 Opus 和 Gemini 3.1 Pro，表现出高度的一致性，并与实际交易表现良好相关。这种行为评估随后被整合到强化学习反馈循环中，从而显著提高了预测准确性和交易策略。
RESEARCH · CL_16117 · May 4 · 13:00

Recurrent RL improves chemotherapy control under partial patient observability

Researchers have developed a recurrent deep reinforcement learning approach to optimize chemotherapy dosing under conditions where a patient's full state is not observable. By using memory-augmented policies with LSTM a…
RESEARCH · CL_13535 · Apr 28 · 16:54

研究人员开发用于城市规模电动汽车叫车服务的半马尔可夫强化学习

研究人员开发了一种新颖的半马尔可夫强化学习方法，用于优化城市规模电动汽车（EV）叫车车队。该方法解决了调度、重新定位和充电等复杂决策问题，同时遵守充电器和馈线限制等物理约束。该系统结合了高级意图和混合整数线性规划来确保可行性，并采用鲁棒优化技术来处理不确定的需求和出行时间。在基于纽约市出租车数据的模拟器中进行的实验表明，该方法显著优于现有基线，净利润达到122万美元。
RESEARCH · CL_06808 · Apr 28 · 04:00

人工智能利用强化学习加速风力发电场控制

研究人员开发了新的强化学习技术来提高风力发电场的控制效率。一种方法利用稳态模型的专家演示来加速训练并提高初始性能，显著缩短了昂贵的学习阶段。另一种方法采用多智能体强化学习来平衡发电量与涡轮机的结构载荷约束，使用代理模型来估计损伤等效载荷并相应地塑造奖励。
RESEARCH · CL_06357 · Apr 27 · 11:48

AI使用强化学习进行飞机失控恢复和防撞

研究人员开发了两个独立的、使用强化学习的先进喷气教练机AI系统。其中一个系统是“飞行员激活恢复系统”（PARS），旨在通过提供AI驱动的恢复机动来提高运行效率。另一个系统是“自动地面防撞系统”（AGCAS），它使用地形服务器数据来防止坠毁。两个系统都经过领域专家的评估，与传统方法相比显示出有希望的结果。
RESEARCH · CL_05143 · Apr 27 · 04:00

AI框架使用因果生成对抗网络、强化学习和LLM评估来预测债券收益率

研究人员开发了一个新颖的债券收益率预测框架，通过使用因果生成对抗网络（CausalGANs）和强化学习来创建合成金融数据。这种包含宏观经济变量的合成数据被用来训练一个微调的大语言模型Qwen2.5-7B，以生成交易信号和风险评估。评估结果表明，其预测性能优于现有方法，其中强化学习方法实现了0.103%的低平均绝对误差。该研究将合成数据生成、大语言模型驱动的金融预测以及基于大语言模型的评估结合起来，以实现人工智能驱动的金融决策。

强化学习优化电动汽车充电以降低排放

研究人员修复强化学习策略优化中的合成数据故障

大型语言模型裁判评估代理股票预测器，通过强化学习提高准确性

Recurrent RL improves chemotherapy control under partial patient observability

研究人员开发用于城市规模电动汽车叫车服务的半马尔可夫强化学习

人工智能利用强化学习加速风力发电场控制

AI使用强化学习进行飞机失控恢复和防撞

AI框架使用因果生成对抗网络、强化学习和LLM评估来预测债券收益率