PulseAugur
实时 11:23:51
English(EN) Beyond the Mouth: Upper-Face Affective Cues in Audiovisual Sentence Recognition under Acoustic Uncertainty

上部面部线索在噪声下增强视听句子识别

研究人员探讨了上部面部情感线索对视听句子识别的影响,特别是在音频质量下降的情况下。他们的研究利用CREMA-D语料库,在各种面部线索条件下训练分类器,包括仅音频、带下部面部特征的音频、带上部面部特征的音频以及两者都带的音频。研究结果表明,虽然下部面部特征显著提高了在嘈杂音频中的鲁棒性,但上部面部情感线索有助于更好地校准和估计置信度,这表明表情丰富的面部信息在多模态交互系统中发挥着作用。 AI

影响 表明情感面部线索可以提高多模态AI系统在嘈杂环境中的鲁棒性和置信度估计。

排序理由 这是一篇详细介绍视听句子识别实验结果的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Zhou Yang, Yueyi Yang ·

    Beyond the Mouth: Upper-Face Affective Cues in Audiovisual Sentence Recognition under Acoustic Uncertainty

    arXiv:2606.00670v1 Announce Type: cross Abstract: Face-to-face speech comprehension is inherently multimodal, integrating acoustic signals with visible articulation, facial expression, head motion, and other socially relevant cues. While audiovisual speech systems typically focus…