实体 Zhuoran Li

Zhuoran Li

PulseAugur coverage of Zhuoran Li — every cluster mentioning Zhuoran Li across labs, papers, and developer communities, ranked by signal.

总计 · 30天

2

90 天内 2

发布 · 30天

0

90 天内 0

论文 · 30天

2

90 天内 2

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 2 条

TOOL · CL_84881 · Jun 11 · 04:00

新的OMAD框架使用扩散策略实现高效的多智能体协调

研究人员推出了一种新颖的在线多智能体强化学习（MARL）框架OMAD，该框架利用扩散策略来增强智能体协调。该方法解决了扩散模型中棘手的似然性问题，而这通常会阻碍在线MARL环境中的探索。OMAD采用了一种宽松的策略目标，该目标最大化了缩放后的联合熵，并使用联合分布值函数进行去中心化策略优化，从而显著提高了样本效率。
TOOL · CL_84873 · Jun 11 · 04:00

新算法从离线数据中学习调度策略

研究人员开发了一种名为SOCD的新型离线强化学习算法，用于多用户系统中的时延约束调度。该方法利用扩散策略和评论家网络，仅从预先收集的数据中学习调度策略，无需实时系统交互。实验表明，SOCD能有效处理各种系统动态，并且优于现有的调度方法。