研究人员开发了一个名为EBM-RL的新框架,该框架通过分离感知、推理和响应生成来增强视频基础的角色扮演对话。这种方法模仿了人类的认知过程,允许对话在生成响应之前基于视觉信息。EBM-RL集成了多种奖励来优化场景-文本对齐、感知效用和响应忠实度,在沉浸式角色扮演基准测试中表现优于现有模型,并展示了强大的零样本迁移能力到其他视觉-语言任务。该团队还发布了一个用于此类对话的开源数据集。 AI
影响 引入了一种将对话与视觉上下文相结合的新方法,有可能改善沉浸式AI体验和互动叙事。
排序理由 这是一篇详细介绍新模型和数据集的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →