English(EN) GRACE: Boosting Video MLLMs with Grounded Action-Centric Evidence for Viewer Sentiment Prediction

新的GRACE框架增强了视频多模态大语言模型的情感预测能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-16 04:00

研究人员开发了GRACE，一个旨在提高多模态大语言模型（MLLMs）在预测视频广告观众情感方面的性能的新框架。GRACE通过提取结构化的、以动作为中心的证据，包括主谓宾三元组和参与实体的局部视觉裁剪，来解决当前多模态大语言模型的局限性。这种方法允许多模态大语言模型通过将线索固定在特定的视觉元素和时间序列上来进行更精确的情感推理。在Pitts数据集上的实验表明，与Qwen2.5-VL和Qwen3-VL等基线模型相比，GRACE显著提高了性能，并在AdsQA和TVQA数据集上得到了进一步验证。 AI

排序理由该集群包含一篇详细介绍新框架和实验结果的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Ruoxuan Yang, Tieyuan Chen, Xiaofeng Huang, Haibing Yin, Jun Wang, Xiping Chen, Jun Yin, Xuesong Gao, Weiyao Lin · 2026-06-16 04:00

GRACE: Boosting Video MLLMs with Grounded Action-Centric Evidence for Viewer Sentiment Prediction

arXiv:2606.16198v1 Announce Type: new Abstract: Viewer sentiment prediction in video advertisements aims to infer the latent affective response evoked in the audience. To bridge the gap between what is shown and what is felt, models must deduce hidden viewer emotions from explici…

报道来源 [1]

GRACE: Boosting Video MLLMs with Grounded Action-Centric Evidence for Viewer Sentiment Prediction

相关实体

相关话题