Vision--Language Models

新框架Concept-as-Tree通过合成数据增强VLM个性化

研究人员开发了Concept-as-Tree (CaT)，一个用于生成合成数据以增强视觉语言模型 (VLMs) 个性化的新颖框架。该方法通过将概念表示为树状结构，解决了VLM个性化中的挑战，例如正样本稀缺和负样本质量低的问题。CaT能够创建具有不同难度级别的多样化正负样本，并结合数据过滤策略，显著提高了VLM在个性化基准测试上的性能。

RESEARCH · CL_135147 · Jul 9 · 12:46

新的OmniFood-Bench揭示了视觉语言模型在健康建议方面的关键缺陷

一个名为OmniFood-Bench的新基准已被开发出来，用于评估视觉语言模型（VLMs）在食物营养推理和提供个性化健康建议方面的能力。该基准建立在MM-Food-100K数据集之上，评估了VLMs在基本感知、营养成分量化推理以及安全关键性建议能力方面的表现。对GPT-5.1、Gemini 3 Flash和Qwen3-VL 8B等模型的初步评估显示，它们在识别食物项目与准确估算份量或提供安全医疗建议（特别是针对高风险人群）的能力之间存在显著差距。

TOOL · CL_133543 · Jul 9 · 04:00

新的T2T-VICL框架实现了跨任务视觉上下文学习

研究人员推出了一种新颖的跨任务视觉上下文学习（VICL）框架T2T-VICL。该方法使视觉语言模型（VLMs）即使在提供的演示与查询任务不同时也能执行视觉任务。T2T-VICL将不匹配的演示转换为隐式文本指导，允许轻量级的学生VLM为冻结的图像编辑VLM生成内容相关的提示。在12个低级视觉任务和20多个跨任务对上的实验证明了T2T-VICL在提高任务对齐和图像保真度方面的有效性。

TOOL · CL_133441 · Jul 9 · 03:40

AI需要世界模型来处理真实世界任务，JEPA在超越LLM方面展现出潜力

世界模型领域的领军研究者Pascale Fung在ICML 2026上发表演讲，阐述了世界模型对于在真实世界中运行的AI代理的必要性。她认为，尽管大型语言模型（LLMs）和视觉语言模型（VLMs）可以处理文本和视觉数据，但它们缺乏物理环境所需的因果推理和预测能力。Fung强调了联合嵌入预测架构（JEPA）相对于生成式世界模型的优势，包括更少的参数量、更快的推理速度以及对噪声和环境变化的更强鲁棒性。她的团队的工作，包括V-JEPA和VL…

RESEARCH · CL_133125 · Jul 8 · 13:31

新的ARGTCA方法通过对属性关系进行建模来提高VLM校准 · 跟踪2个来源

研究人员开发了ARGTCA，这是一种用于提高视觉语言模型（VLM）的可靠性和置信度估计的新颖方法。该方法利用符号属性图和图注意力网络（GAT）来捕获属性间的依赖关系，解决了先前方法将属性独立处理的局限性。实验表明，ARGTCA显著降低了预期校准误差（ECE），其中一个变体在九个基准测试中的一项提高了约37%，另一项提高了17%。

RESEARCH · CL_133199 · Jul 8 · 09:13

研究发现视觉理解限制了VLM在复杂文档上的性能

一项新研究在工业文档、信息图表和演示文稿等文档上，对八个开源视觉语言模型（VLM）在文档视觉问答（DocVQA）任务上的表现进行了评估。研究发现，虽然VLM在结构化布局上表现良好，但在视觉上复杂的图表和幻灯片上的效果会减弱。研究还表明，视觉理解能力，而非知识缺乏，是DocVQA性能的主要限制因素。使用少量领域特定样本进行微调可以显著提高模型的适应性。

RESEARCH · CL_131271 · Jul 7 · 16:46

新型AirflowAttack利用热湍流欺骗红外视觉语言模型

研究人员开发了AirflowAttack，一种用于红外遥感视觉语言模型（VLMs）的对抗性扰动的新颖方法。该攻击利用热空气湍流，合成合理的空气流动模式来欺骗VLMs。在对六个最先进的VLMs进行测试时，AirflowAttack将场景分类准确率降低了高达38.2%，并矛盾地增加了模型的置信度，使其将扰动解释为真实的热证据。

RESEARCH · CL_131326 · Jul 7 · 07:04

新的PolicyShiftGuard改进了适用于动态策略的AI图像安全护栏

研究人员推出了一种新颖的图像护栏方法PolicyShiftGuard，该方法能够适应不断变化的AI安全策略。与将安全视为静态的传统方法不同，PolicyShiftGuard旨在根据提供的策略动态调整其决策。该系统采用两阶段训练过程，结合了随机策略SFT（RP-SFT）和边界对策略适应（BP-Adapt），以提高在PolicyShiftBench等策略自适应基准上的性能。实验表明，PolicyShiftGuard在处理策略变化方面显著优…

TOOL · CL_129486 · Jul 7 · 04:00

新基准揭示视觉语言模型在标准化原始医疗数据方面存在困难

一项新的研究论文介绍了一个名为 MDS-Bench 的基准，旨在评估视觉语言模型（VLMs）在标准化异构原始医疗数据方面的能力。这解决了现有基准假设数据已准备就绪的关键差距，而这在实际临床实践中并非如此。该基准涉及识别数据格式、转换医学图像、提取文本并将它们组织成结构化对等任务。实验显示，即使是像 Gemini 3 Flash 这样先进的模型也面临困难，成功率仅为 48.6%，凸显了数据标准化是医疗人工智能诊断的一个重大瓶颈。

TOOL · CL_129399 · Jul 7 · 04:00

新基准揭示视觉语言模型在理解相机运动方面存在困难

研究人员发现，当前视觉语言模型（VLMs）在理解自然语言描述的相机运动方面存在显著差距。他们发现模型经常混淆平移与旋转，以及物体运动与相机运动。为解决此问题，研究人员开发了一项新的研究任务、基准和训练数据集。一项经过微调的 VLM-8B 模型在该任务上比 Gemini 3.1 Pro 提高了 10-11%，但与人类能力相比仍存在相当大的性能差距。

TOOL · CL_128843 · Jul 7 · 04:00

新 ClinOCR-Bench 数据集发布，用于临床 OCR 评估

研究人员推出了 ClinOCR-Bench，这是一个新的、公开可用的数据集，旨在评估专门用于临床扫描文档的光学字符识别 (OCR) 模型。该数据集解决了医学领域缺乏全面基准的问题，而该领域的基准通常依赖于私有数据，并且未能考虑到常见的扫描伪影。ClinOCR-Bench 包含 384 张图像，分布在六个子集中，涵盖了各种文档类型和常见伪影，使其适用于评估传统的 OCR 工具和先进的视觉语言模型。

TOOL · CL_128772 · Jul 7 · 04:00

新基准揭示VLM在材料科学相图理解方面的局限性

研究人员推出MatPhaseBench，这是一个旨在评估视觉语言模型（VLM）在理解复杂材料科学相图方面能力的新基准。该基准源自科学文献，包含详细的图文对，并侧重于需要深度理解和推理、超越简单视觉感知的任务。目前的VLM在该领域表现出显著的局限性，在热力学机制分析和专家级解读方面遇到困难，表明人工智能能力与科学理解之间存在巨大差距。

TOOL · CL_126156 · Jul 5 · 11:26

VLMs 实现开放词汇视频场景图生成

一种新的视频场景图生成（SGG）方法利用视觉语言模型（VLMs）来创建视频内容的结构化、机器可读的描述。与依赖固定词汇的传统 SGG 方法不同，这种方法使用 Qwen2.5-VL 等开放词汇 VLMs 直接从视觉和语言线索生成描述。该过程包括从视频中选择关键帧，然后使用 VLM 识别对象、人物及其关系，形成一个可编程分析的图。

RESEARCH · CL_130604 · Jul 4 · 00:00

Hugging Face论文详述用于机器人技术的VLA模型改进

Hugging Face的两篇新研究论文探讨了视觉-语言-动作（VLA）模型的进展。第一篇论文介绍了LingBot-VLA 2.0，通过扩展其训练数据以包含多样化的机器人配置和人类视频，提高了泛化能力，并增强了其动作空间以涵盖复杂操作的全身运动。第二篇论文提出了SVA，一个通过蒙特卡洛树搜索和Q值模型将动作生成与后果评估解耦，从而改进冻结VLA模型的框架，证明该方法可以以更低的延迟超越更大的模型。

TOOL · CL_123128 · Jul 3 · 04:00

新的MedRepBench基准评估LLM在医学报告解读能力

研究人员推出了MedRepBench，一个旨在评估视觉语言模型（VLMs）和大型语言模型（LLMs）在医学报告解读能力的新基准。该基准侧重于提取结构化信息，如项目、值和单位，并根据报告内容生成面向患者的解释，而非诊断推理。MedRepBench包含1,925张已去标识化的中文医学报告图像，并包含用于客观字段级召回率测量和基于LLM的主观事实性及可解释性评分的协议。研究还强调了当前OCR+LLM管道的局限性，如布局错误和延迟，突显了对健…

TOOL · CL_123047 · Jul 3 · 04:00

新ProCal方法增强开放词汇目标检测

研究人员开发了ProCal，一种用于开放词汇目标检测的新颖方法，可在推理时校准分类分数。该方法通过分析预训练的视觉-语言模型（VLMs）区分前景和背景区域的能力来利用它们。ProCal结合了感知定位的前景分数和感知背景的抑制分数，以提高在训练期间未见过的类别的目标定位和分类的准确性。当应用于CLIPSelf ViT-L/14时，ProCal在OV-LVIS数据集上展示了+2.5 APr的显著改进。

TOOL · CL_123064 · Jul 2 · 10:08

视觉语言模型在医学图像质量评估中显示出可靠性问题

一项新研究评估了视觉语言模型（VLMs）在医学图像质量评估中的可靠性，发现这些模型在处理腐蚀或有偏差的图像数据时存在困难。在 MediMeta-C 数据集上进行测试时，VLMs 的性能显著下降，尤其是在处理常用于隐私保护的像素化图像时。研究还强调，诸如机构声望或设备年龄等上下文元数据可能会不当地影响 VLM 分数，这表明其缺乏客观性并可能存在偏见。

TOOL · CL_121483 · Jul 2 · 04:00

新基准 EgoSafetyBench 测试具身视觉语言模型在运行时安全性

研究人员推出了 EgoSafetyBench，这是一个新的诊断性基准，旨在评估具身视觉语言模型（VLMs）的安全能力。该基准包含 1,200 个从自我中心视角捕获的机器人视角场景，并进行了细粒度标注，以评估 VLM 在区分真正不安全情况和可能看起来令人警觉的日常活动方面的能力。评估包括关注情境危险以及误导性场景文本对 VLM 判断影响的赛道。对十种不同 VLM 的初步测试表明，尽管许多模型能够识别一般性危险，但它们通常难以识别特定的危…

TOOL · CL_121093 · Jul 1 · 06:19

新基准MindEdit-Bench揭示VLM在反事实空间推理方面存在困难

研究人员推出了MindEdit-Bench，一个旨在评估视觉语言模型（VLM）物体级反事实空间推理能力的新基准。该基准使用通过智能手机拍摄的日常室内场景照片三元组，并采用自动流水线进行3D场景图提取。它包括探究感知和视角转换的任务，以及专注于空间编辑和跨视图可见性编辑的新任务，这些任务的正确答案不在输入图像中。对15个VLM的初步测试显示，与人类表现相比，准确率显著降低，突显了它们在进行反事实空间推理方面的巨大差距。

TOOL · CL_119591 · Jul 1 · 04:00

新的神经符号学方法VLC增强了VLM的推理稳健性

一项新的研究论文探讨了视觉语言模型（VLMs）在分布变化下的推理稳健性，特别是在视觉演绎推理任务中。研究发现，标准的VLMs在分布内数据上准确，但在感知输入分布发生变化时难以泛化。为了解决这个问题，研究人员提出了VLC，一种结合了基于VLM的概念识别和基于电路的符号推理的神经符号学方法，证明了其在分布外准确性的提高。