实体 Hierarchical Advantage Weighting for Online RL Fine-Tuning of VLAs from Sparse Episode Outcomes

Hierarchical Advantage Weighting for Online RL Fine-Tuning of VLAs from Sparse Episode Outcomes

PulseAugur coverage of Hierarchical Advantage Weighting for Online RL Fine-Tuning of VLAs from Sparse Episode Outcomes — every cluster mentioning Hierarchical Advantage Weighting for Online RL Fine-Tuning of VLAs from Sparse Episode Outcomes across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 1

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_93797 · Jun 15 · 17:57

新HABC方法提升视觉语言智能体强化学习微调效果

研究人员引入了分层优势加权行为克隆（HABC）方法，以改进视觉语言智能体（VLAs）的在线强化学习。HABC通过分离可行性和效率目标，并使用状态自适应门来平衡它们，从而解决了强化学习微调中稀疏、二元结果的挑战。该方法还纳入了干预感知信用分配，以防止从外部策略执行的片段中进行不正确的学习。在真实机器人任务上的实验表明，与标准的监督微调基线相比，成功率有了显著提高。

新HABC方法提升视觉语言智能体强化学习微调效果