English(EN) Understanding the Performance Plateau in Text-to-Video Retrieval: A Comprehensive Empirical and Linguistic Analysis

文本到视频检索模型难以处理复杂查询

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-05 04:00

一篇新论文分析了文本到视频检索系统的性能平台期，在三个数据集上评估了14种最先进的方法。研究发现，描述单一动作或属性的更简单、更清晰的字幕能带来更高的检索召回率。复杂事件和多步活动对当前模型来说仍然具有挑战性，而注意力驱动的架构在处理时间依赖性查询方面显示出优势。 AI

影响确定了阻碍文本到视频检索的关键数据集因素和查询复杂性，为未来的模型开发提供指导。

排序理由这是一篇发表在arXiv上的研究论文，分析了现有的文本到视频检索方法。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Maria-Eirini Pegia, Dimitrios Stefanopoulos, Bj\"orn {\TH}\'or J\'onsson, Anastasia Moumtzidou, Ilias Gialampoukidis, Stefanos Vrochidis, Ioannis Kompatsiaris · 2026-05-05 04:00

理解文本到视频检索的性能平台期：一项全面的实证和语言学分析

arXiv:2605.00826v1 Announce Type: cross Abstract: Text-to-video retrieval enables users to find relevant video content using natural language queries, a task that has grown increasingly important with the rapid expansion of online video. Over the past six years, research has prod…