研究人员推出了一种新颖的多模态框架MuVAP,用于预测多人对话中的轮次转换。该系统通过整合来自单个摄像头和单声道音频流的声学预测与面部跟踪,扩展了语音活动投影,使其适用于人机交互。为了处理多说话人的复杂性,MuVAP采用了角色相对投影。该框架使用新创建的Audio-Visual Conversation Corpus进行了验证,这是一个包含31小时未经编辑的对话的数据集,并在轮次转换预测任务上展示了优于现有基线模型的性能。 AI
影响 该框架可以通过实现更自然的对话轮次转换来增强人机交互。
排序理由 该集群描述了一篇新发表在arXiv上的研究论文,详细介绍了一个新颖的对话式AI框架和数据集。
- Audio-Visual Conversation Corpus
- MuVAP
- Role-Relative Projection
- SHIFT/HOLD
- Voice Activity Projection
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →