Visual Language Models

OpenGround框架通过规划和在线感知增强3D视觉定位

研究人员推出OpenGround，一个专为开放世界3D视觉定位设计的新颖框架。该系统通过集成任务链规划（Task-Chain Planning）将复杂查询分解为可管理的子目标，并通过上下文引导感知（Context-Guided Perception）进行在线物体识别，从而解决了当前方法的局限性。OpenGround还包含一个名为OpenTarget的新数据集，以促进在开放世界场景下的评估。该框架表现强劲，在ScanRefer上取得了最…

TOOL · CL_121136 · Jun 30 · 20:35

新研究揭示了AI视觉问答基准中的关键缺陷

一篇新发表在arXiv上的论文详细介绍了当前基于知识的视觉问答（KB-VQA）基准存在的重大问题。研究强调，由于答案不正确或矛盾、问题表述不清以及视觉场景过于简单等问题，常见的评估指标（如答案准确率）并不可靠。作者提出了一种审计和修复协议来解决这些问题，以及一种增强协议来引入视觉复杂性，并证明这些改进导致了不同的模型性能趋势，并呼吁重新评估KB-VQA基准的设计。

RESEARCH · CL_117880 · Jun 30 · 04:00

新基准TSHA和CAREBench揭示LLM安全漏洞

发布了两个新的基准来评估语言模型的安全能力。TSHA使用超过66,000个问答对，侧重于评估视觉语言模型在真实室内环境中识别安全隐患的能力。而CAREBench则专门针对语言模型，评估其识别明确滥用内容之外的上游儿童安全风险的能力，包含十二个类别的500个提示。这两个基准都突显了当前前沿模型在安全意识方面存在的显著不足。

TOOL · CL_109908 · Jun 25 · 04:00

新的基准和微调数据提高了VLM的隐私意识

研究人员开发了新的方法来增强视觉语言模型（VLM）的隐私意识。他们引入了两个基准，PrivBench和PrivBench-H，旨在根据GDPR评估VLM对视觉隐私的理解。此外，还创建了一个名为PrivTune的精选指令微调数据集，以提高隐私敏感性。使用少量PrivTune数据对现有VLM进行微调，显著提高了它们在这些隐私基准上的性能，甚至超过了GPT-4，同时保持了它们的一般任务能力。

RESEARCH · CL_99778 · Jun 18 · 00:00

S-Agent框架增强VLMs进行3D空间推理 · 跟踪4个来源

研究人员推出S-Agent，一个旨在增强视觉语言模型（VLMs）在3D环境中进行空间推理的新框架。S-Agent整合了时间记忆和一系列空间工具，能够从多视图图像中持续理解3D世界，超越了静态、帧级别的分析。该框架允许VLMs充当语义规划器，决定需要什么证据，而空间工具则将物体定位在2D，将其提升到3D，并将这些信息聚合为空间知识。实验表明，S-Agent在无需重新训练的情况下就能改进开源和闭源VLMs，并且经过微调的版本S-Agent…

TOOL · CL_91498 · Jun 15 · 04:00

视觉语言模型用于纺织品分拣基准测试，Qwen 准确率领先

研究人员开发了一个数字孪生驱动的机器人系统，用于自动化纺织品分拣，集成了视觉语言模型（VLMs）进行分类和异物检测。该系统使用九种 VLMs 对各种服装类型和异物进行了基准测试，其中 Qwen 模型系列取得了 87.9% 的最高准确率。Gemma3 等较轻量级模型在边缘部署方面具有具有竞争力的速度-准确性权衡。该方法结合了 VLM 推理、抓取检测和数字孪生技术，以提高操作可靠性，并实现工业环境中可扩展的自主纺织品分拣。

RESEARCH · CL_86880 · Jun 11 · 08:21

SeamEdit 管道支持黑盒 VLM 图像编辑

研究人员推出 SeamEdit，这是一个专为使用视觉语言模型 (VLM) 对大型图像进行语义编辑而设计的新型管道。这种无需训练、模型不可知的方法将 VLM 视为黑盒预言机，解决了将闭源模型应用于分块编辑时出现的语义变形和可见接缝等问题。SeamEdit 采用五阶段流程，包括瓦片分解、VLM 修复、一致性校正、候选排序和接缝融合，以实现高质量的编辑，并自然地融入周围内容。

TOOL · CL_72812 · Jun 5 · 04:00

FUSAR-GPT 利用时空特征推进SAR图像解释

研究人员开发了FUSAR-GPT，这是一种专门为合成孔径雷达（SAR）图像设计的新型视觉语言模型（VLM）。该模型通过整合地理空间基线模型以获取世界知识并嵌入时空遥感特征，解决了现有VLM在解释SAR数据方面的局限性。FUSAR-GPT采用两阶段策略来解耦知识注入和任务执行，在遥感基准测试中取得了最先进的性能，超越了当前模型10%以上。

RESEARCH · CL_76815 · Jun 4 · 22:19

AI 研究解决医疗影像和文档分析中的幻觉问题

多篇研究论文探讨了检测和减轻 AI 系统中幻觉的方法，特别是在医疗影像和文档分析等安全关键应用中。一项研究提出了一个用于医疗 AI 的跨模态框架，强调通用模型在幻觉基准测试中可能优于专用模型。另一篇论文介绍了 SafeLLM，它使用提取而非重写的方式进行检索增强生成，以提高安全性和减少幻觉。此外，还有关于使用类人标准探测进行零源幻觉检测的研究，以及利用最优传输和因果循环标注器来更快地检测各种 AI 任务中的幻觉发生。

RESEARCH · CL_65287 · Jun 2 · 04:00

新数据集揭示基础模型在牛顿物理学方面存在困难

研究人员推出了 NewtPhys，这是一个旨在评估基础模型对牛顿物理学理解程度的新数据集。该数据集使用具有物理学基础模拟的真实场景，并提供详细、细粒度的注释来评估低级物理推理，这与之前侧重于简单场景的基准测试不同。使用 NewtPhys 进行的评估揭示了包括开放权重模型和前沿模型在内的 56 个视觉语言模型和 10 个视觉基础模型的物理学理解能力存在局限性。该数据集旨在推进物理学基础视觉研究以及开发更复杂的物理感知评估。

TOOL · CL_59106 · May 29 · 04:00

新的视觉语言模型评估方法应对复杂的古希腊文本识别

研究人员开发了新的资源并评估了现有的视觉语言模型（VLMs），以应对古希腊评注本中复杂的文本识别任务。这些历史文献具有复杂的版式语义、密集的引用层级和大量的页边注释，对当前的VLMs构成了挑战。该研究引入了一个包含185,000张页面图像的合成语料库和一个真实扫描版评注本的基准测试，结果显示在零样本设置下，大多数VLMs的表现不如传统软件。然而，Qwen3VL-8B模型表现出了最先进的性能，在真实扫描版上实现了1.0%的字符错误率，凸…

RESEARCH · CL_48261 · May 22 · 13:41

新的DDX-TRACE基准测试评估视觉语言模型医学诊断轨迹

研究人员推出DDX-TRACE，这是一个旨在评估视觉语言模型（VLMs）在医学背景下诊断推理能力的新基准测试。与仅关注最终答案的现有基准测试不同，DDX-TRACE评估整个诊断轨迹，包括模型如何在连续步骤中请求证据、更新鉴别诊断以及管理不确定性。对最先进的VLMs进行的初步评估显示出显著的不足，表明模型可以在不展示健全的临床推理或高效证据收集的情况下获得最终诊断的高分。

TOOL · CL_36087 · May 15 · 06:59

新的VCG-Bench基准针对VLM图表生成和编辑

研究人员推出了VCG-Bench，这是一个旨在评估视觉语言模型（VLM）在结构化图表生成和编辑任务上的新基准。目前的VLM在这些专业工作流程中存在困难，通常依赖于可编辑性较差的基于像素的方法。VCG-Bench提出了一种使用mxGraph XML的“代码即图表”方法，以实现精确控制，并包含一个跨越六个领域的1,449个图表的数据集，以及一个定制的评估协议。

TOOL · CL_32692 · May 14 · 15:03

新框架提升视觉语言模型处理程序性任务的能力

研究人员引入了一个名为 Chain-of-Procedure (CoP) 的新框架，以增强视觉语言模型回答有关程序性任务问题的能力。该框架通过改进基于视觉线索的结构化指令检索，并使图像序列的粒度与文本步骤分解相匹配，从而解决了当前模型的局限性。CoP 首先检索相关指令，然后通过语义分解细化步骤，最后生成下一步动作，在新基准 ProcedureVQA 上取得了高达 13% 的改进。

RESEARCH · CL_08217 · Apr 28 · 06:02

新算法改进了用于语音保留的面部表情操控的视觉语言模型监督

研究人员开发了一种名为个性化跨模态情感相关性学习（PCMECL）的新算法，以改进语音保留的面部表情操控。该方法通过改进视觉语言模型（VLMs）的监督来解决配对数据有限的挑战。PCMECL通过学习基于个体视觉线索的情感个性化提示，并利用特征差分来弥合视觉和语义特征分布之间的差距来实现这一点。