新基准FutureOmni测试多模态LLM的未来预测能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-18 04:00

研究人员推出了FutureOmni，这是一个旨在评估多模态大语言模型（MLLMs）未来预测能力的新基准。该基准专注于视听环境，要求模型进行跨模态推理并利用内部知识来预测未来事件。目前的MLLM在此任务上表现不佳，表现最好的模型Gemini 3 Flash的准确率仅为64.8%。为解决此问题，研究人员开发了一个指令调优数据集和一个全模态未来预测（OFF）训练策略，这提高了未来预测和泛化能力。 AI

影响该基准和训练策略有望带来更强大的多模态模型，使其能够更好地理解和预测复杂数据中的未来事件。

排序理由该集群包含一篇介绍多模态LLM新基准和训练策略的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 Română(RO) · Qian Chen, Jinlan Fu, Changsong Li, Min Zhang, See-Kiong Ng, Xipeng Qiu · 2026-06-18 04:00

FutureOmni: Evaluating Future Forecasting from Omni-Modal Context for Multimodal LLMs

arXiv:2601.13836v2 Announce Type: replace Abstract: Although Multimodal Large Language Models (MLLMs) demonstrate strong omni-modal perception, their ability to forecast future events from audio-visual cues remains largely unexplored, as existing benchmarks focus mainly on retros…

报道来源 [1]

FutureOmni: Evaluating Future Forecasting from Omni-Modal Context for Multimodal LLMs

相关实体

相关话题