English(EN) E-VAds: An E-commerce Short Videos Understanding Benchmark for MLLMs

新基准 E-VAds 旨在提升多模态大语言模型对电商视频的理解能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-26 04:00

研究人员推出了 E-VAds，一个旨在评估多模态大语言模型（MLLMs）在理解电商短视频方面能力的新基准。该基准通过关注商业内容特有的、视觉、听觉和文本信号密度更高的特点，解决了现有数据集的局限性。E-VAds 包含超过 3,900 个视频和近 20,000 个问答对，分为感知、认知和推理任务。该论文还详细介绍了 E-VAds-R1，一个在识别商业意图方面表现出显著性能提升的新型推理模型。 AI

影响该基准有望推动多模态大语言模型在理解和生成商业导向内容方面的发展。

排序理由该集群包含一篇介绍新基准和相应模型的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Xianjie Liu, Yiman Hu, Liang Wu, Ping Hu, Yixiong Zou, Jian Xu, Bo Zheng · 2026-05-26 04:00

E-VAds：一个面向多模态大模型的电商短视频理解基准

arXiv:2602.08355v3 Announce Type: replace Abstract: E-commerce short videos represent a high-revenue segment of the online video industry characterized by a goal-driven format and dense multi-modal signals. Current models often struggle with these videos because existing benchmar…

报道来源 [1]

E-VAds：一个面向多模态大模型的电商短视频理解基准

相关实体

相关话题