新的MuVAP框架预测多人对话中的轮次转换

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-15 13:54

研究人员推出了一种新颖的多模态框架MuVAP，用于预测多人对话中的轮次转换。该系统通过整合来自单个摄像头和单声道音频流的声学预测与面部跟踪，扩展了语音活动投影，使其适用于人机交互。为了处理多说话人的复杂性，MuVAP采用了角色相对投影。该框架使用新创建的Audio-Visual Conversation Corpus进行了验证，这是一个包含31小时未经编辑的对话的数据集，并在轮次转换预测任务上展示了优于现有基线模型的性能。 AI

影响该框架可以通过实现更自然的对话轮次转换来增强人机交互。

排序理由该集群描述了一篇新发表在arXiv上的研究论文，详细介绍了一个新颖的对话式AI框架和数据集。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.AI TIER_1 English(EN) · Haotian Qi, Gabriel Skantze · 2026-06-16 04:00

MuVAP: Multimodal Multiparty Voice Activity Projection for Turn-taking Prediction in the Wild

arXiv:2606.16731v1 Announce Type: cross Abstract: Current multiparty turn-taking models often rely on complex microphone arrays or multi-camera setups, limiting their applicability in human-robot interaction scenarios. We introduce MuVAP, a causal multimodal framework that extend…
arXiv cs.AI TIER_1 English(EN) · Gabriel Skantze · 2026-06-15 13:54

MuVAP: Multimodal Multiparty Voice Activity Projection for Turn-taking Prediction in the Wild

Current multiparty turn-taking models often rely on complex microphone arrays or multi-camera setups, limiting their applicability in human-robot interaction scenarios. We introduce MuVAP, a causal multimodal framework that extends Voice Activity Projection by grounding acoustic …

报道来源 [2]

MuVAP: Multimodal Multiparty Voice Activity Projection for Turn-taking Prediction in the Wild

MuVAP: Multimodal Multiparty Voice Activity Projection for Turn-taking Prediction in the Wild

相关话题