实体
Zhuoran Li
Zhuoran Li
PulseAugur coverage of Zhuoran Li — every cluster mentioning Zhuoran Li across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
主题
情绪 · 30 天
1 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
新的OMAD框架使用扩散策略实现高效的多智能体协调
研究人员推出了一种新颖的在线多智能体强化学习(MARL)框架OMAD,该框架利用扩散策略来增强智能体协调。该方法解决了扩散模型中棘手的似然性问题,而这通常会阻碍在线MARL环境中的探索。OMAD采用了一种宽松的策略目标,该目标最大化了缩放后的联合熵,并使用联合分布值函数进行去中心化策略优化,从而显著提高了样本效率。
-
新算法从离线数据中学习调度策略
研究人员开发了一种名为SOCD的新型离线强化学习算法,用于多用户系统中的时延约束调度。该方法利用扩散策略和评论家网络,仅从预先收集的数据中学习调度策略,无需实时系统交互。实验表明,SOCD能有效处理各种系统动态,并且优于现有的调度方法。