visual question answering

SoccerNet 2026 挑战赛结束，体育视频理解取得进展 · 跟踪 2 个来源

SoccerNet 2026 挑战赛已落下帷幕，这是专注于推进体育视频分析计算机视觉技术的第六届年度竞赛。今年的赛事包含五个不同的任务：球动作预测、以球员为中心的球动作识别、新视角合成、Spiideo SoccerNet Synloc 运动员定位以及视觉问答。挑战赛吸引了大量参与者，共有 427 支队伍提交了 1,129 个条目，其中 28 支队伍提供了详细的技术报告。

TOOL · CL_128907 · Jul 7 · 04:00

新的VLM系统IRIS通过结构化知识注入增强眼部疾病诊断

研究人员开发了IRIS（智能识别与交互系统），一个旨在利用大型视听模型（VLMs）来改善眼表疾病（OSDs）理解的系统。为解决专业数据缺乏的问题，他们创建了IRIS-120K，这是最大的OSDs VQA数据集，通过主题查找树和场景驱动的对话合成策略整合了临床知识。这种将结构化知识注入4B参数VLM的方法，显著优于更大、通用的医疗VLMs，证明了知识注入在专业AI应用中比参数扩展更有效。

TOOL · CL_128860 · Jul 7 · 04:00

Q-TriM框架通过并行注意力增强视听问答

研究人员开发了Q-TriM，一种用于视听问答（AVQA）的新型框架，它利用浅层并行注意力机制，而不是深层顺序堆叠。该方法旨在通过以文本查询为条件来处理视频和音频，从而减轻信息丢失和跨层错误累积。Q-TriM在多个AVQA基准测试中展示了最先进的性能，包括在MUSIC-AVQA-R上取得显著改进，突显了其有效性和泛化能力。

TOOL · CL_118130 · Jun 30 · 04:00

新的CoSPlan基准挑战视觉规划任务中的视觉语言模型

研究人员推出了CoSPlan，这是一个旨在评估视觉语言模型（VLM）在视觉领域顺序规划能力的新基准。与基于文本的规划不同，CoSPlan要求模型执行一系列视觉动作，检测错误步骤并进行纠正以达到目标场景。尽管采用了思维链（Chain-of-Thought）和场景图（Scene Graphs）等高级策略，VLM在CoSPlan上仍面临挑战。为解决此问题，该论文提出了场景图增量更新（SGI），一种无需训练的方法，可优化文本场景图以进行分步推…

RESEARCH · CL_117106 · Jun 27 · 07:14

新的多模态RAG方法增强长文档理解能力

研究人员开发了一种新颖的多模态基于图的检索增强生成（RAG）方法，以增强对长篇、视觉丰富的文档的理解。该方法解决了当前多模态大语言模型（MLLMs）和多模态RAG（MMRAG）系统在整体理解方面因上下文窗口受限而面临的局限性。通过整合总结全局文档信息的知识图谱（KGs），新方法旨在提高视觉问答（VQA）能力。研究人员还引入了一个新的基准DLVQA，以促进文档级VQA性能的评估，并证明他们的方法优于现有的MMRAG和基于KG的技术。

RESEARCH · CL_115733 · Jun 25 · 00:00

新的基准 WorldRoamBench 和 MemoBench 评估 AI 世界模型的稳定性和记忆能力

引入了两个新的基准测试 WorldRoamBench 和 MemoBench，分别用于评估交互式世界模型和视频生成模型的能力。WorldRoamBench 专注于跨越动作、视觉、物理和记忆的长时程稳定性，测试超过 600 个案例，发现当前模型难以满足所有标准。MemoBench 专门针对动态环境中的记忆一致性，评估模型在物体消失后重新出现时恢复其更新状态的能力，评估显示在遮挡期间保留和更新物体状态存在挑战。

TOOL · CL_106761 · Jun 20 · 09:49

ViRGo框架通过自适应路由优化VLM性能

研究人员开发了ViRGo，一个旨在通过自适应路由查询来优化视觉语言模型（VLM）性能的新颖框架。ViRGo通过估计对象尺度和语义置信度，在全局感知、基于块的检索或基于注意力机制的检索之间进行智能选择，从而解决分辨率和上下文之间的权衡问题。这种方法旨在提高准确性和效率，尤其是在涉及小对象的任务中，通过避免不必要的缩放并在适当的时候保留全局上下文。

RESEARCH · CL_99963 · Jun 18 · 17:22

量子熵估计对小型系统使用VQAs，对大型系统使用CNNs

研究人员探索了使用变分量子算法（VQAs）和经典卷积神经网络（CNNs）在多量子比特量子系统中进行熵估计。对于较小的系统（最多三个量子比特），VQAs表明精度主要取决于可训练参数的数量。对于较大的系统（两个到五个量子比特），在测量结果上训练的CNN在准确性和稳定性方面表现出预测能力，并且随着系统尺寸的增加，性能有所提高。对于四到五量子比特系统的准确预测，CNN方法被证明对噪声具有鲁棒性，并且比完整的状态层析成像需要更少的测量。

RESEARCH · CL_99696 · Jun 18 · 09:06

新AI框架利用语义锚定改进癌症预后分析

研究人员开发了一个名为语义锚定证据融合生存（SAEFS）的新框架，以提高癌症预后全切片图像分析的准确性和可靠性。SAEFS利用视觉问答（VQA）从图像中提取语义锚定，这些锚定比传统的像素衍生表示对染色和硬件的变化更具鲁棒性。通过使用一种谨慎的建模不确定性的方法将这些语义特征与视觉证据融合，SAEFS在未见过的领域上评估时，平均C指数提高了10.2%，优于现有的最先进模型。

TOOL · CL_106618 · Jun 17 · 17:20

新协议衡量VLA模型的常识知识

研究人员开发了Act2Answer，这是一个新的评估协议，旨在评估视觉-语言-动作（VLA）模型在机器人数据上进行微调后保留的常识和世界知识。该协议通过让智能体在桌面环境中通过特定动作选择答案来调整现有的VLM知识基准，从而减少与低级控制相关的混淆。对七个VLA模型和九个VLM基线的大规模研究表明，虽然VLA模型在简单概念上表现良好，但与它们的源VLM相比，它们在复杂语义领域表现出更大的知识差距。研究还表明，VQA联合训练有助于知识保…

TOOL · CL_93941 · Jun 16 · 04:00

新框架统一了机器人手术中的分割和VQA

研究人员开发了一个新颖的框架，该框架统一了机器人手术中的像素级分割和视觉问答（VQA）。该方法使用由视觉语言模型（VLM）生成的对象令牌来指导答案预测，并通过基于SAM的解码器生成分割掩码。通过同时优化分割和VQA目标的对象令牌，该模型学习了空间基础表示，增强了推理能力并提供了显式的像素级基础。该方法在RAMIE和EndoVis18数据集上表现出卓越的性能，提高了手术场景的细粒度理解。

RESEARCH · CL_93885 · Jun 16 · 04:00

新论文揭示视觉语言模型缺乏主体性和知识保留能力

两篇新研究论文指出了当前视觉语言模型（VLMs）的局限性，特别是在微调后保留知识的能力以及在视觉推理中缺乏“主体性”方面。第一篇论文《视觉-语言-动作模型是否了解基础知识？》引入了Act2Answer协议，通过让具身VLA模型通过动作选择答案来评估它们，结果显示它们在简单概念上表现良好，但在比其源VLMs更丰富的语义类别上却表现不佳。第二篇论文《主体性：视觉推理中系统性的主体性缺失》认为，VLMs受限于缺乏主体性，导致它们充当被动的语…

RESEARCH · CL_82085 · Jun 9 · 16:34

新框架模拟多模态大语言模型中的复杂人格

研究人员开发了一个新的框架，用于条件化和评估多模态大语言模型（MLLMs）的人格。他们的实验表明，虽然人格诱导可以增强图像字幕生成，但可能会阻碍视觉问答等精确推理任务的性能。研究还观察到多重特征构成和动态切换过程中的平衡和残余效应，这表明模型行为受到过去和现在人格约束的影响。

TOOL · CL_87109 · Jun 6 · 00:00

Robust-U1 框架增强了多模态大语言模型（MLLMs）修复损坏视觉内容的能力

研究人员开发了 Robust-U1，一个旨在增强多模态大语言模型（MLLMs）在面对视觉损坏时的鲁棒性的新框架。该框架使 MLLMs 能够自我修复损坏的视觉内容，从而提高图像质量和推理能力。Robust-U1 采用了一个包含监督微调、具有双重奖励的强化学习以及多模态推理的三阶段过程。实验表明，Robust-U1 在真实世界损坏基准测试和视觉问答任务中的对抗性损坏方面取得了最先进的性能。

RESEARCH · CL_65107 · May 30 · 00:00

新的VQA基准解决记忆、情感和可解释性问题

研究人员正在开发用于高级视觉问答（VQA）任务的新基准和方法。一种方法侧重于从大型语言模型中提取答案集编程规则，以提高神经符号VQA系统的可解释性。另一项重要进展是SuperMemory-VQA数据集，它使用AI眼镜捕获长时程的以自我为中心的视频，用于评估AI助手在现实记忆回忆任务中的表现。此外，InsightVQA基准解决了视觉情感理解和认知推理问题，提供了一个用于这些复杂方面分层问答的大规模数据集。

RESEARCH · CL_41927 · May 20 · 03:44

新的VQA基准和方法解决了知识、适应性和关联性问题

研究人员推出了几个新的视觉问答（VQA）系统基准和方法。HyLoVQA提出了一种动态超网络生成的低秩适应技术，用于持续VQA，提高了对新任务和对象的适应性。WikiVQABench提供了一个使用维基百科和维基数据的知识增强型VQA基准，旨在测试需要外部知识的模型。此外，UCSF-PDGM-VQA专注于脑肿瘤MRI解读，突出了当前VLM在临床环境中的局限性，而RoboSurg-VQA则解决了手术分割感知的VQA问题，VISTAQA则对答…

RESEARCH · CL_06542 · Apr 28 · 04:00

研究人员开发了知识图谱检索和补全的新方法

研究人员开发了新的框架，通过将多模态知识图谱与检索增强生成技术相结合，来增强知识图谱补全和视觉问答。一种名为RADD的方法将多模态知识图谱补全的检索和重排序解耦，在基准测试中取得了最先进的结果。另一种名为mKG-RAG的方法，在知识密集型视觉问答的检索增强生成中利用多模态知识图谱，通过使用结构化知识和双阶段检索策略来提高准确性。

RESEARCH · CL_06489 · Apr 28 · 04:00

HAC将CLIP适配到双曲空间以实现零样本VQA任务

研究人员推出HAC，一个新颖的框架，它将预训练的CLIP模型适配到双曲几何以改进零样本视觉问答（VQA）。这种参数高效的方法允许现有的CLIP模型通过最小的微调过渡到双曲空间，避免了从头开始训练的需要。HAC通过比标准CLIP模型提高高达1.9个百分点的性能，在包括推理密集型任务在内的各种VQA基准测试中展示了卓越的性能。

RESEARCH · CL_06631 · Apr 28 · 01:57

新的基准 SpecVQA 和 M3-VQA 在科学和多跳推理方面挑战多模态大语言模型

研究人员推出了 M$^3$-VQA，这是一个新的基准，旨在评估多模态大语言模型 (MLLMs) 在涉及多个实体和多跳推理的复杂推理任务上的表现。该基准挑战模型理解跨越视觉和文本来源的细粒度细节，需要顺序和并行推理。对 16 个领先的 MLLMs 的初步评估显示，它们在知识获取和推理能力方面存在显著局限性，尽管在提供精确证据时性能有了实质性提高。