English(EN) Temporal and Cross-Modal Alignment for Enhanced Audiovisual Video Captioning

新模型通过时域音视频集成增强视频字幕生成

作者 PulseAugur 编辑部 · [2 个来源] · 2026-07-03 04:00

两篇新的研究论文介绍了通过整合音频和视觉信息来为视频生成详细、时域感知的字幕的先进方法。第一篇论文TCA-Captioner，侧重于使用迭代细化策略和诊断基准来改进时空和跨模态对齐。第二篇论文TimeChat-Captioner，提出了一种名为Omni Dense Captioning的新任务，该任务生成带有时间戳的连续、脚本式字幕，并引入了一个在下游任务上优于Gemini-2.5-Pro的基线模型。 AI

影响这些在视听视频字幕生成方面的进步可能带来更复杂的视频分析工具和更丰富的媒体体验。

排序理由两篇在arXiv上发表的研究论文，介绍了用于视听视频字幕生成的新模型和基准。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.CV TIER_1 English(EN) · Chen Zhao, Jiajun Ma, Qilong Huang, Tiehan Fan, Hongyu Li, Zhuoliang Kang, Xiaoming Wei, Jian Yang, Ying Tai · 2026-07-03 04:00

Temporal and Cross-Modal Alignment for Enhanced Audiovisual Video Captioning

arXiv:2607.01667v1 Announce Type: new Abstract: While Multimodal Large Language Models (MLLMs) have advanced video understanding, achieving precise temporal and cross-modal alignment in audiovisual video captioning remains a formidable challenge. Most existing approaches suffer f…
arXiv cs.CV TIER_1 English(EN) · Linli Yao, Yuancheng Wei, Yaojie Zhang, Lei Li, Xinlong Chen, Feifan Song, Ziyue Wang, Kun Ouyang, Yuanxin Liu, Lingpeng Kong, Qi Liu, Pengfei Wan, Kun Gai, Yuanxing Zhang, Xu Sun · 2026-07-03 04:00

TimeChat-Captioner: Scripting Multi-Scene Videos with Time-Aware and Structural Audio-Visual Captions

arXiv:2602.08711v3 Announce Type: replace Abstract: This paper proposes Omni Dense Captioning, a novel task designed to generate continuous, fine-grained, and structured audio-visual narratives with explicit timestamps. To ensure dense semantic coverage, we introduce a six-dimens…

报道来源 [2]

Temporal and Cross-Modal Alignment for Enhanced Audiovisual Video Captioning

TimeChat-Captioner: Scripting Multi-Scene Videos with Time-Aware and Structural Audio-Visual Captions

相关实体

相关话题