Qwen2.5-VL · PulseAugur

VLMs 实现开放词汇视频场景图生成

一种新的视频场景图生成（SGG）方法利用视觉语言模型（VLMs）来创建视频内容的结构化、机器可读的描述。与依赖固定词汇的传统 SGG 方法不同，这种方法使用 Qwen2.5-VL 等开放词汇 VLMs 直接从视觉和语言线索生成描述。该过程包括从视频中选择关键帧，然后使用 VLM 识别对象、人物及其关系，形成一个可编程分析的图。

TOOL · CL_125025 · Jul 4 · 10:03

针对大批量发票提取微调视觉语言模型

一篇技术博文详细介绍了为高效发票提取微调视觉语言模型的过程。作者描述了构建一个每日可处理超过 50,000 份发票的光学字符识别 (OCR) 管道。该管道利用 Qwen2.5-VL 和 Llama 3.2 Vision 等模型来实现大批量数据处理。

RESEARCH · CL_128851 · Jul 4 · 00:00

新方法逐个标记追踪多模态大语言模型注意力

研究人员开发了一种名为“逐个标记”（OTaT）的新方法，用于分析多模态大语言模型（MLLMs）在响应生成过程中如何利用视觉和文本信息。该技术追踪对图像、文本、指令和先前生成标记的注意力转移，揭示了各种MLLMs之间的一致模式。研究发现，当需要图像派生信息时，对图像的注意力达到峰值；在任务转换期间会重新审视指令；随着时间的推移，对生成标记的注意力会增加。基于这些发现的干预措施显著提高了多模态任务的性能。

RESEARCH · CL_128737 · Jul 2 · 00:00

新的AI框架通过先进的记忆和推理能力解决长视频理解问题

研究人员正在开发先进的框架，以改进AI模型理解和推理长视频的方式。例如，Homer使用分层记忆系统，按时间因果联系组织信息，在M3-Bench-robot等基准测试中表现优于现有方法。Latent-VC通过在解码器中保留视觉记忆来解决“视觉锚定衰减”问题，从而实现更准确、更简洁的视频推理。EGAgent采用实体场景图和代理规划来实现以自我为中心的视频理解，而Light-Omni则提供了一种具有双重上下文状态以实现高效处理的反射式、轻量…

RESEARCH · CL_121570 · Jul 1 · 22:17

新的半监督CoT框架通过伪监督增强LLM推理能力

研究人员推出了一种新颖的半监督思维链学习框架Semi-CoT，该框架利用未标记问题生成伪推理监督。该方法通过基于估计的答案级语义熵来选择可靠的推理链，从而改进了CoT的自训练方法。虽然实验在选择高精度伪CoT方面显示出潜力，但有效利用仍需要改进演示选择或学生训练策略。

TOOL · CL_121209 · Jul 1 · 11:41

新框架提升大语言模型高分辨率图像感知能力

研究人员推出了一种名为分层实体探索（HEE）的新型框架，旨在增强多模态大语言模型（MLLMs）的高分辨率图像感知能力。与需要大量训练或依赖固定图像分割的现有方法不同，HEE无需训练且模型无关。它通过首先评估区域是否有足够证据，然后使用对象检测进行细粒度细节分析，并将这些信息组织成语义层次结构，来动态指导实体探索。该方法旨在通过置信度引导的回溯实现自适应感知，从而克服当前高分辨率图像处理中常见的细节丢失问题。

TOOL · CL_121184 · Jul 1 · 04:12

新框架利用脑电图信号编辑面部表情

研究人员开发了MindAU，一个旨在基于脑电图（EEG）信号编辑面部动作单元（AUs）的新型框架。该系统旨在将嘈杂的EEG数据转化为精确的、保持身份的面部表情编辑。MindAU采用双流流形对齐方法，弥合EEG特征与Qwen2.5-VL等模型语义表示之间的差距，并结合了先进的基于扩散的编辑技术。该项目还引入了E-CAFE，一个专门为EEG条件下的面部动作单元编辑而策划的新基准数据集，旨在推进针对神经肌肉疾病患者的辅助技术。

TOOL · CL_118020 · Jun 30 · 04:00

HKVLM 模型通过分离定位和语言来改进视觉推理

研究人员开发了 HKVLM，一种新颖的视觉推理方法，它将定位与语言生成分离开来。该模型利用一个冻结的语言对齐检测器和一个冻结的语言模型，通过一个轻量级的对齐钩连接。该钩通过对比检索和二分匹配将语言查询绑定到区域建议，旨在提高视觉问答和目标检测任务的忠实度。该系统专为小数据设置而设计，并包含一个忠实度否决机制，以防止命名不支持的对象，从而显著降低幻觉率。

TOOL · CL_117625 · Jun 30 · 04:00

新的ST-Merge框架提升机器人VLM/VLA的推理速度

研究人员开发了ST-Merge，一个旨在加速机器人中使用的视觉语言模型（VLMs）和视觉语言动作模型（VLAs）推理速度的新型框架。这种即插即用、无需训练的方法通过构建3D时空坐标并采用并行匹配和加权聚合机制，在编码阶段有效地融合冗余的视觉令牌。ST-Merge还包括一个后融合位置校正机制，以保持空间精度。该框架已展示出显著的速度提升，在Qwen2.5-VL模型上实现了2倍的推理速度提升，精度损失极小，并在高分辨率下实现了8.3倍的V…

RESEARCH · CL_107765 · Jun 23 · 12:13

新方法通过高效内存和重看能力增强流媒体视频理解 · 跟踪 6 个来源

研究人员开发了新方法，在严格的计算和内存限制下提高流媒体视频理解 (SVU) 能力。ProtoKV 是一种新颖的内存系统，将旧视频内容聚合为摘要状态，在延迟查询场景下准确率提高高达 12.5 个百分点。另外，video-SALMONN-R$^3$ 使用重看机制来定位相关片段，以实现更高效的问题解答，在计算成本较低的情况下优于基础模型。CausalMem 提供了一种无需训练的方法来构建动态、固定预算的内存库，在 LLaVA-OneVis…

TOOL · CL_99209 · Jun 18 · 19:01

视觉大语言模型分析 Stable Diffusion sigma schedule 以改进图像生成

一位用户通过将具有视觉能力的大语言模型 (LLM) 集成到 Stable Diffusion 工作流程中，开发了一种提高图像生成质量的新方法。该方法使用 LLM（如 Gemma 3 12B 或 Qwen2.5-VL）来分析采样器生成的 sigma schedule graph。然后，LLM 提供具体、可操作的反馈，包括质量评分、对曲线形状的观察、预测的输出特征以及精确的旋钮调整和目标值，用于 Ideogram 4 的 `mu` 和 `…

RESEARCH · CL_95864 · Jun 16 · 09:22

新研究解决 LVLM 幻觉问题并改进视觉-语言学习

研究人员正在开发新方法来提高大型视觉-语言模型 (LVLM) 的鲁棒性和能力。一种名为 SeeMe 的方法侧重于通过工程化视觉标记来抑制不相关信息同时保留关键证据，从而减轻幻觉。另一个框架 Text as Partial Constraint (TPC) 旨在通过将多视图字幕视为不完整监督并提炼共识语义核心来创建更可靠的表示。此外，还在探索像 HiMe 这样的新架构，用于长视域的视觉-语言-动作控制，将具身智能解耦为分层组件，以实现更…

RESEARCH · CL_96074 · Jun 16 · 05:25

OmniDrive 使用 LLM 代理进行高级驾驶视频生成

研究人员推出 OmniDrive，一个新颖的 LLM 编排的多代理世界模型，用于生成多视角驾驶视频。该系统通过采用共享的符号语际来解决集成异构控制输入和融合每相机潜在表示的挑战。DRIVE-CHOREO 框架使用三个 Qwen2.5-VL 代理来创建统一的、位置感知的 token 序列，并与视频数据进行联合压缩，在 nuScenes 数据集上实现了多视角一致性和 BEV mAP 的最先进结果。

TOOL · CL_93961 · Jun 16 · 04:00

新的GRACE框架增强了视频多模态大语言模型的情感预测能力

研究人员开发了GRACE，一个旨在提高多模态大语言模型（MLLMs）在预测视频广告观众情感方面的性能的新框架。GRACE通过提取结构化的、以动作为中心的证据，包括主谓宾三元组和参与实体的局部视觉裁剪，来解决当前多模态大语言模型的局限性。这种方法允许多模态大语言模型通过将线索固定在特定的视觉元素和时间序列上来进行更精确的情感推理。在Pitts数据集上的实验表明，与Qwen2.5-VL和Qwen3-VL等基线模型相比，GRACE显著提高了…

TOOL · CL_93414 · Jun 16 · 04:00

新的DUPL方法提升了LLM的多模态推理能力

研究人员推出了一种新颖的策略学习方法DUPL，旨在增强大型语言模型（LLMs）的多模态推理能力。该方法专门解决了区分复杂推理产生的不确定性与视觉感知模糊性之间的挑战。通过量化和利用感知不确定性和输出不确定性，DUPL指导策略更新，将学习重点放在高模糊性区域，从而改善了目标探索。该方法在各种多模态推理基准测试中显示出显著的准确性提升，优于现有方法，并展示了在不同算法和架构上的广泛适用性。

TOOL · CL_93349 · Jun 16 · 04:00

新的VinQA数据集增强了多模态LLM在文档问答方面的能力

研究人员推出了VinQA，一个旨在提高多模态大语言模型（MLLMs）在真实世界文档问答能力的新数据集。与以往模型常生成纯文本答案不同，VinQA专注于生成整合了引用的视觉元素（如图像和图表）与支持性文本的长篇答案。该研究还探讨了文档页面图像的两种编码方法，并提出了M-GroSE，一个用于评估答案质量（包括视觉引用准确性）的多模态评估框架。

RESEARCH · CL_94025 · Jun 16 · 02:48

新型AI模型修复损坏图像，提升多模态理解能力

研究人员开发了Robust-U1，一种增强多模态模型对损坏图像理解能力的新方法。Robust-U1不依赖于纯粹的文本分析或特征对齐，而是生成图像的修复版本，然后同时使用原始图像和修复后的图像进行分析。该方法在ICML 2026上的一篇论文中进行了详细介绍，包括监督图像修复训练、带有双视觉奖励的强化学习以及在两张图像上的联合推理。实验表明，通过提供因压缩、噪声或光线不足等退化而丢失的关键视觉证据，该技术显著提高了性能。

RESEARCH · CL_92973 · Jun 15 · 00:00

阿里巴巴的 Qwen-RobotWorld 通过语言接口统一具身人工智能

阿里巴巴的 Qwen 团队推出了 Qwen-RobotWorld，一个专为具身智能设计的语言条件视频世界模型。该模型利用自然语言作为通用接口，预测包括操作、自动驾驶和导航在内的各种机器人领域的未来视觉轨迹。Qwen-RobotWorld 基于双流扩散 Transformer 和广泛的具身世界知识语料库构建，在多个基准测试中表现强劲，并可应用于合成数据生成、虚拟环境评估和机器人控制。

RESEARCH · CL_91013 · Jun 12 · 08:58

新的ALVTS方法通过自适应令牌选择提升LVLM效率

研究人员推出了一种名为自适应层级视觉令牌选择（ALVTS）的新框架，旨在提高大型视觉语言模型（LVLM）的效率。与先前永久丢弃令牌的方法不同，ALVTS动态选择重要令牌进行进一步处理，同时允许不太关键的令牌跳过某些层。这种自适应方法在无需重新训练模型的情况下最大限度地减少了计算冗余。实验表明，ALVTS可以在LLaVA-1.5、LLaVA-NeXT和Qwen2.5-VL等基准测试中实现89%的令牌压缩率，同时保留原始模型96.7%的准确性。

TOOL · CL_85048 · Jun 11 · 07:38

Qwen2.5-VL 图像 token 预算影响准确性

Qwen2.5-VL 模型中的 `max_pixels` 配置实际上是伪装的 token 预算，默认设置通常会导致远高于推荐的预算。这可能导致性能不佳，尤其是在图像中的大型目标时。最佳 token 预算取决于所寻找对象的具体大小，较小的目标受益于较大的预算，而较大的目标在较低的 token 数下表现最佳。