研究人员开发了GRACE,一个旨在提高多模态大语言模型(MLLMs)在预测视频广告观众情感方面的性能的新框架。GRACE通过提取结构化的、以动作为中心的证据,包括主谓宾三元组和参与实体的局部视觉裁剪,来解决当前多模态大语言模型的局限性。这种方法允许多模态大语言模型通过将线索固定在特定的视觉元素和时间序列上来进行更精确的情感推理。在Pitts数据集上的实验表明,与Qwen2.5-VL和Qwen3-VL等基线模型相比,GRACE显著提高了性能,并在AdsQA和TVQA数据集上得到了进一步验证。 AI
排序理由 该集群包含一篇详细介绍新框架和实验结果的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →