实体 vision-language model

vision-language model

PulseAugur coverage of vision-language model — every cluster mentioning vision-language model across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

369

90 天内 369

发布 · 30天

90 天内 0

论文 · 30天

348

90 天内 348

层级分布 · 90 天

significant 1
research 164
tool 194
commentary 10

主题

论文 348
模型发布 153
产品 106
其他 77
安全 63
基础设施 25
观点 1
融资 1

关系

instance of Vision--Language Models 95%
instance of CatalyzeX 90%
instance of Qwen VL 90%
instance of Vision-language-action model 90%
instance of Vista 90%
employed by Yonglong Tian 90%
uses autonomous driving 80%
used by autonomous driving 80%
used by ScienceCast 70%
used by Gotit.pub 70%
used by alphaXiv 70%
used by CatalyzeX 70%

时间线

2026-05-26 research_milestone A new self-ensembling method for vision-language models was proposed to improve chart data extraction. 来源
2026-05-19 research_milestone A new method is proposed to improve out-of-distribution visual document understanding in VLMs. 来源

情绪 · 30 天

24 天有情绪数据

最近 · 第 1/10 页 · 共 200 条

COMMENTARY · CL_133760 · Jul 9 · 08:28

AI 的下一个前沿：实体机器人超越感知，走向现实世界行动

人工智能的下一个前沿正从屏幕转向物理世界，人工智能系统越来越多地被设计用于直接与现实世界环境互动。这一转变正在推动机器人技术的发展，其重点正从单纯的感知转向可靠的执行和实时行动。视觉语言模型是关键的赋能者，使机器能够理解上下文并适应不熟悉的情况，而边缘 AI 处理对于低延迟、设备端推理至关重要。
TOOL · CL_133572 · Jul 9 · 04:00

AI模型在奖励评估回路受扰时表现出类似人类的快感缺失

研究人员开发了一个新的框架来评估视觉语言模型中的奖励评估，并将其与人类的快感缺失和动机缺陷进行比较。通过调整用于重度抑郁症的临床测试，他们识别并扰乱了这些AI模型中的奖励预期单元。研究发现，破坏这些单元会导致模型偏好低努力、低回报的选择，模仿快感缺失的症状，而不会损害其一般任务能力。这项工作揭示了AI中功能性的奖励评估回路，与人类观察到的回路非常相似。
TOOL · CL_133544 · Jul 9 · 04:00

新的 FSU-QA 数据集评估 AI 预测未来事件的能力

研究人员推出了一种新的 AI 模型能力——预见智能（Foresight Intelligence），用于预测未来事件，这对于自动驾驶等应用至关重要。为了评估这一能力，他们开发了 FSU-QA 数据集，并对当前的视觉语言模型（VLMs）进行了研究。研究结果表明，现有模型在面向预见的任务上存在困难，但即使是较小的 VLMs 在 FSU-QA 上进行微调，也能显著提高它们对未来情况的推理能力，表现优于更大的模型。
RESEARCH · CL_133115 · Jul 8 · 15:17

人机交互论文探讨结构设计中的创造力

一篇新研究论文探讨了人机交互如何增强结构设计和建筑领域的创造力。作者认为，当前专注于消除摩擦的生成式AI，往往无法满足受益于迭代探索和完善的创意领域的需求。他们提出了共创系统的设计维度，该系统利用视觉语言模型，使结构探索过程更具对话性，并能响应用户意图，从而保留有益的设计摩擦。
TOOL · CL_133302 · Jul 8 · 13:37

板载VLM赋能机器人多智能体控制系统

研究人员开发了一种用于机器人控制的多智能体系统（MAS）架构，该架构利用板载视觉语言模型（VLM）来克服可解释性、泛化性和计算需求的限制。该系统在紧凑型硬件上部署专用智能体，无需外部云计算。在模拟的工业仓库中进行了测试，该MAS成功地通过微调的VLM管理了安全检查、维护和响应人类请求等任务。引入了一种新颖的编排智能体“Megamind”，以解决小型模型在长时域规划中的上下文保留问题，证明了经济高效的板载解决方案在现实世界机器人应用中的可行性。
RESEARCH · CL_133124 · Jul 8 · 13:35

新AI框架利用PET引导改进全身MRI转换

研究人员开发了一个名为异质性自适应扩散Schrodinger桥（HA-DSB）的新框架，以改进全身MRI转换。该方法通过整合来自视觉语言模型（VLM）的区域上下文嵌入，解决了跨不同解剖区域和病理组织的MRI扫描转换中的挑战。此外，它还通过双阶段引导机制整合了PET衍生的代谢信息，以提高病理组织转换的保真度。
RESEARCH · CL_133192 · Jul 8 · 13:15

通用视觉-语言模型在快速射电暴探测中可媲美专用探测器

研究人员证明，通用视觉-语言模型（VLM）可以通过零样本方法有效探测动态频谱中的快速射电暴（FRB）。Gemma 4 2B 和 4B 等模型在准确性方面表现出色，可与 SwinYNet 等专用探测器相媲美，并且在射频干扰方面具有显著更低的误报率。该研究表明，可以通过调整提示来重新配置 VLM 以执行多类分类任务，为传统的特定任务深度学习模型提供了一种灵活的替代方案。
RESEARCH · CL_133222 · Jul 8 · 12:56

新的BUS框架利用受大脑启发的无监督学习增强VLM推理 · arXiv

研究人员开发了一种名为“受大脑启发的无监督自我反思”（BUS）的新训练框架，以增强视觉语言模型（VLM）的推理能力。BUS受人脑的向后预测机制启发，使VLM能够在不需要标记数据的情况下审查和改进其生成的推理。这种无标签的方法显著提高了在多个基准测试中复杂视觉任务的性能，证明了向后预测在VLM推理中的关键作用。
COMMENTARY · CL_131862 · Jul 8 · 08:01

SpaceX AI发布Grok 4.5；德国初创企业迎来AI热潮；Claude Code发布安全警报

据埃隆·马斯克称，SpaceX AI将于明天向公众发布Grok 4.5。在其他AI新闻中，2026年上半年，德国初创企业的成立数量创下纪录，其中超过三分之一专注于AI，这表明AI在降低初创企业门槛方面发挥了作用。此外，中国工业和信息化部已就Anthropic开发的AI编码工具Claude Code中潜在的安全后门发出警告。
COMMENTARY · CL_131231 · Jul 8 · 04:45

前OpenAI研究员加入腾讯，从事VLM研发

泰隆股份有限公司表示，公司不直接从事实体AI相关产品的研发或技术储备，而是专注于其核心的半导体分销业务。在相关新闻中，前OpenAI研究员田永龙已加入腾讯大语言模型部门，从事VLM（视觉语言模型）研究。此前，腾讯已聘请前OpenAI高级研究员姚舜宇担任其首席AI科学家。
TOOL · CL_131123 · Jul 8 · 02:12

腾讯聘请前OpenAI研究员田涌泷开发VLM

腾讯已聘请前OpenAI研究员田涌泷加入其大语言模型部门。田涌泷将专注于开发视觉语言模型（VLM）和多模态AI。此前，腾讯已从OpenAI招募了包括现任腾讯首席AI科学家姚舜宇在内的AI人才。
RESEARCH · CL_131397 · Jul 7 · 17:53

新数据集MonoIR-RS推动红外遥感视觉语言理解

研究人员推出了MonoIR-RS，这是一个新的数据集和基准，旨在通过视觉语言模型促进对红外遥感图像的理解。该资源包括600,000张合成红外图像和超过59,000条红外感知字幕，专门调整为侧重于红外线索而非RGB外观。实验表明，将CLIP和VLM等模型适配到这种红外特定数据上，可以显著提高它们在图像字幕和检索等任务上的性能，减少对残余RGB信息的依赖。
RESEARCH · CL_131264 · Jul 7 · 17:27

新的VAORA方法增强了VLM的物理推理和任务泛化能力

研究人员开发了VAORA（视觉动作结果推理对齐），这是一种旨在提高视觉语言模型（VLM）物理推理和任务泛化能力的新奖励设计。该方法解决了两个主要的失效模式：与物理定律相矛盾的幻觉推理，以及模型推理与其动作之间的脱节。VAORA使用两种奖励将VLM推理锚定到视觉上下文和动作结果上，从而抑制不正确的推理并将行为与思维过程对齐。在PHYRE和Virtual Tool数据集上的实验证明了VAORA在新型任务和环境中的有效性。
RESEARCH · CL_131275 · Jul 7 · 16:11

新框架揭示视觉语言模型在图像编辑中的定位限制

研究人员开发了一个名为代理分析法（Analysis-by-Proxy）的新框架，用于研究视觉语言模型（VLMs）在图像编辑流程中作为条件编码器时的定位准确性。研究发现，尽管VLMs具有强大的独立定位能力，但在复杂场景下，当它们被限制为仅进行一次前向传播作为条件编码器时，其定位准确性会受到影响。代理分析法通过在VLM的中间表示上训练一个轻量级模型，来揭示定位信息是如何被编码和提取的，从而发现VLM的表示与当前编辑流程的提取策略之间存在不匹配。
RESEARCH · CL_131279 · Jul 7 · 15:31

新SCENT框架使用语言连接视觉和嗅觉

研究人员开发了一个新的多模态框架SCENT，它利用语言引导来弥合视觉和嗅觉信息之间的差距。该框架利用视觉语言模型（VLMs）生成场景描述符，捕捉物体、环境背景和可能的嗅觉线索，然后指导嗅觉表征的学习。在New York Smells数据集上的实验表明，SCENT显著提高了跨模态检索任务的性能，优于仅视觉基线，并在嗅觉到图像和嗅觉到文本检索方面取得了最先进的成果。
RESEARCH · CL_131410 · Jul 7 · 15:11

VaseMuseum框架通过可靠的VLM增强数字博物馆的陶器分析能力 · 追踪3个来源

研究人员开发了VaseMuseum，这是一个多模态代理框架，旨在增强古希腊陶器的交互式数字博物馆。该系统以VaseAgent为特色，通过将视觉证据与专业知识相结合并控制不确定性来解决VLM可靠性方面的挑战。VaseMuseum旨在通过从权威来源检索信息并确保生成的声明有证据支持来提高引文的有效性并减少幻觉。
RESEARCH · CL_131411 · Jul 7 · 14:54

新型AI模型TMF-RSE通过多模态融合改进肺部严重程度评分

研究人员开发了TMF-RSE，一个新颖的三模态深度学习框架，旨在从医学影像中准确评分肺部疾病的严重程度。该框架整合了来自2D胸部输入的表观特征、来自肺部分割掩码的结构特征以及来自视觉语言模型的语义特征。TMF-RSE还结合了证据回归，以提供严重程度预测和不确定性估计，在Per-COVID-19 CT和RALO数据集上优于现有的基于Transformer的基线模型。
RESEARCH · CL_131440 · Jul 7 · 05:30

AVA-VLM：用于建筑监控的新型视觉语言模型采用粗粒度到细粒度推理

研究人员开发了AVA-VLM，这是一种新颖的视觉语言模型，专为建筑工地监控而设计。与依赖直接问答式微调的先前方法不同，AVA-VLM采用受人类启发的粗粒度到细粒度推理策略。它首先分析低分辨率的全局图像，然后选择性地请求高分辨率的裁剪图像进行详细检查，从而提高了操作范围和效率。一个新的区域感知思维链数据集有助于模型确定何时以及何处进行裁剪以获取证据。
RESEARCH · CL_129095 · Jul 7 · 04:00

AI幻觉：新研究探究推理和跨语言泛化能力

两篇新研究论文探讨了AI模型中的“幻觉”现象，重点关注这些错误如何影响下游推理，以及检测信号是否能在不同语言和领域之间泛化。第一篇论文介绍了HIVE，一个用于研究视觉语言模型中后幻觉推理的引擎，发现幻觉字幕有时可以提高视觉语言任务的性能。第二篇论文CrossHallu研究了用于检测大型语言模型内部状态幻觉的信号是否能在英语和阿拉伯语之间以及不同领域之间转移，结果表明这些信号在很大程度上是可转移的。
RESEARCH · CL_128900 · Jul 7 · 04:00

新研究利用可解释性和强化学习解决自动驾驶可靠性问题

近期自动驾驶领域的研究正在探索先进技术以提高模型的可靠性和性能。一篇论文介绍了无监督字典学习，用于解释和纠正端到端驾驶模型，增强其决策逻辑。另一篇论文提出了一个使用强化学习和潜在思维蒸馏的框架，为驾驶场景创建高效且准确的视觉-语言模型，解决了幻觉和延迟问题。此外，一项调查回顾了强化学习在自动驾驶运动规划中的应用，强调了经验教训和未来挑战。其他工作则侧重于针对环境幻觉的鲁棒性基准测试、为长尾场景开发基于智能体的模拟，以及一个用于端到端驾…

AI 的下一个前沿：实体机器人超越感知，走向现实世界行动

AI模型在奖励评估回路受扰时表现出类似人类的快感缺失

新的 FSU-QA 数据集评估 AI 预测未来事件的能力

人机交互论文探讨结构设计中的创造力

板载VLM赋能机器人多智能体控制系统

新AI框架利用PET引导改进全身MRI转换

通用视觉-语言模型在快速射电暴探测中可媲美专用探测器

新的BUS框架利用受大脑启发的无监督学习增强VLM推理 · arXiv

SpaceX AI发布Grok 4.5；德国初创企业迎来AI热潮；Claude Code发布安全警报

前OpenAI研究员加入腾讯，从事VLM研发

腾讯聘请前OpenAI研究员田涌泷开发VLM

新数据集MonoIR-RS推动红外遥感视觉语言理解

新的VAORA方法增强了VLM的物理推理和任务泛化能力

新框架揭示视觉语言模型在图像编辑中的定位限制

新SCENT框架使用语言连接视觉和嗅觉

VaseMuseum框架通过可靠的VLM增强数字博物馆的陶器分析能力 · 追踪3个来源

新型AI模型TMF-RSE通过多模态融合改进肺部严重程度评分

AVA-VLM：用于建筑监控的新型视觉语言模型采用粗粒度到细粒度推理

AI幻觉：新研究探究推理和跨语言泛化能力

新研究利用可解释性和强化学习解决自动驾驶可靠性问题