NestRL 训练 AI 代理以实现更好的人机适应性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-02 04:00

研究人员开发了 NestRL，一种新颖的嵌套训练机制，旨在通过实现相互适应来改善人机协作。该方法将人机交互建模为交互式部分可观察马尔可夫决策过程 (I-POMDP)，并在嵌套层次结构的较低级别中针对自适应伙伴训练代理。NestRL 旨在防止代理开发不透明的、特定于伙伴的策略，从而提高与 AI 和人类队友的泛化能力和适应性。 AI

影响增强了 AI 在人机协作中的适应性，有可能提高在复杂交互任务中的性能。

排序理由该集群包含一篇详细介绍 AI 代理新训练方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Upasana Biswas, Durgesh Kalwar, Subbarao Kambhampati, Sarath Sreedharan · 2026-06-02 04:00

NestRL: A Nested Training Regime for Mutual Adaptation in Human-AI Teaming

arXiv:2602.17737v2 Announce Type: replace-cross Abstract: Mutual adaptation is a central challenge in human-AI teaming, as humans naturally adjust their strategies in response to an AI agent's behavior. Existing approaches attempt to approximate human behavior by diversifying tra…

报道来源 [1]

NestRL: A Nested Training Regime for Mutual Adaptation in Human-AI Teaming

相关话题