PulseAugur
实时 12:17:59
实体 Zhuoran Li

Zhuoran Li

PulseAugur coverage of Zhuoran Li — every cluster mentioning Zhuoran Li across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 2 条
  1. TOOL · CL_84881 ·

    新的OMAD框架使用扩散策略实现高效的多智能体协调

    研究人员推出了一种新颖的在线多智能体强化学习(MARL)框架OMAD,该框架利用扩散策略来增强智能体协调。该方法解决了扩散模型中棘手的似然性问题,而这通常会阻碍在线MARL环境中的探索。OMAD采用了一种宽松的策略目标,该目标最大化了缩放后的联合熵,并使用联合分布值函数进行去中心化策略优化,从而显著提高了样本效率。

  2. TOOL · CL_84873 ·

    新算法从离线数据中学习调度策略

    研究人员开发了一种名为SOCD的新型离线强化学习算法,用于多用户系统中的时延约束调度。该方法利用扩散策略和评论家网络,仅从预先收集的数据中学习调度策略,无需实时系统交互。实验表明,SOCD能有效处理各种系统动态,并且优于现有的调度方法。