实体 Qwen2-VL

Qwen2-VL

PulseAugur coverage of Qwen2-VL — every cluster mentioning Qwen2-VL across labs, papers, and developer communities, ranked by signal.

总计 · 30天

5

90 天内 10

发布 · 30天

0

90 天内 0

论文 · 30天

5

90 天内 8

层级分布 · 90 天

主题

情绪 · 30 天

3 天有情绪数据

最近 · 第 1/1 页 · 共 10 条

TOOL · CL_119593 · Jul 1 · 04:00

SMART框架优化LLM推测解码，提升速度

研究人员开发了SMART，一个系统感知框架，旨在优化大型语言模型（LLM）中推测解码的效率。该方法解决了可能导致在更大批量大小或达到硬件限制时加速效果降低的计算开销问题。SMART将树扩展重新构建为硬件感知的优化问题，通过在推理时应用边际效益成本规则来最大化端到端加速。评估表明，SMART在各种硬件配置下，始终优于现有方法，为多模态和大型语言模型提供显著的额外加速，同时不损害性能。
TOOL · CL_93710 · Jun 16 · 04:00

HorusEye框架将语言作为动态注意力用于紧急情况视觉分析

一篇新研究论文介绍了HorusEye，一个专为紧急情况视觉分析设计的框架，它将语言视为动态注意力。该研究在模拟雾、烟和热成像等条件的退化数据集上对Gemini、Qwen2-VL、BLIP-2、LLaVA和Kosmos-2等多种视觉语言模型（VLMs）进行了基准测试。主要发现表明，语言反馈在不同VLMs上对模型性能有显著不同的影响，Gemini在热成像条件下表现出显著改进，而Qwen2-VL则性能下降。研究还强调了一个“热成像悖论”，即…
RESEARCH · CL_93066 · Jun 15 · 14:27

新的Gen-VCoT框架为多模态AI生成视觉推理步骤

研究人员推出Gen-VCoT，一个旨在通过生成视觉思维链（CoT）推理步骤来增强多模态大语言模型（MLLMs）的新型框架。与依赖文本CoT或不透明令牌的现有方法不同，Gen-VCoT利用专家视觉模型生成可解释的RGB图像作为中间推理表示。该方法包括使用SAM进行视觉接地、使用Marigold深度图进行几何推理以及与Qwen2-VL集成的语义推理，并由一个自适应路由器控制推理深度。虽然Gen-VCoT在空间和深度相关问题上显示出显著的改…
RESEARCH · CL_83786 · Jun 10 · 16:32

Hugging Face Transformers 添加 MiniMax-M3-VL、DeepSeek-V3.2 和 DiffusionGemma

Hugging Face Transformers 库已发布 5.12.0 版本，引入了 MiniMax-M3-VL 等新模型，这是一个具有 CLIP 式视觉塔和稀疏专家混合解码器的视觉语言模型。此次更新还包括对 PP-OCRv6（一个高效的 OCR 系统）和 Parakeet-RNNT（一个带有 RNN-T 解码器的快速 Conformer 编码器）的改进。此外，5.11.0 版本添加了 DiffusionGemma（一个用于更快文…
TOOL · CL_67200 · Jun 2 · 15:36

开发者将7B VLM提炼成2B，在截图方面超越教师模型

一位开发者将一个拥有70亿参数的视觉语言模型（VLM）提炼成一个拥有20亿参数的版本，专门用于描述UI截图。这个更小的模型实现了更快的速度并使用了更少的内存，同时令人惊讶地在ROUGE-L指标上超越了更大的教师模型。该过程利用了知识蒸馏，其中较大的模型为较小的模型生成训练数据，这表明专业化模型可以在狭窄的任务上超越通用模型。
TOOL · CL_66123 · Jun 2 · 04:00

新CoCoA方法提升多模态嵌入质量

研究人员推出了一种新颖的预训练范式CoCoA，旨在增强多模态嵌入模型。该方法侧重于通过协作注意力进行内容重建，旨在创建比传统对比学习方法更紧凑、信息量更丰富的表示。通过鼓励模型从特定嵌入中重建输入，CoCoA有效地压缩了语义信息，从而提高了多模态嵌入模型的性能上限。
RESEARCH · CL_50513 · May 25 · 00:00

新研究推进AI模型的向量量化技术

几篇最新的研究论文探讨了AI模型向量量化技术的进展。ArcVQ-VAE引入了球形角度裕度先验，以提高图像建模中的潜在表示多样性和码本利用率。高斯VAE被用于一种无需训练的方法（Gaussian Quant）中，将其转换为VQ-VAE，性能优于现有方法。DiVeQ提供了一种使用重参数化技巧进行向量量化端到端训练的可微分方法，提高了压缩和生成任务的性能。MGVQ通过集成多维敏感度感知和梯度-Hessian融合来实现超低比特量化，专注于压缩…
RESEARCH · CL_14347 · May 4 · 04:00

GPT-4o 及其他多模态模型在计算机视觉任务上的评估

一篇新论文评估了包括 GPT-4o 和 Gemini 1.5 Pro 在内的多模态基础模型在标准计算机视觉任务上的表现。研究人员开发了一种提示链方法，将视觉任务转换为文本格式，以便 API 可访问的模型进行处理。研究发现，虽然这些模型是可靠的通才，但它们尚未能媲美专业的计算机视觉模型，在语义任务上的表现优于几何任务。GPT-4o 在非推理模型中表现最强，但具有原生图像生成能力模型出现了幻觉对象等故障模式。
RESEARCH · CL_06838 · Apr 28 · 04:00

FAIR_XAI框架揭示了多模态模型在福祉评估中的偏见

研究人员开发了FAIR_XAI框架，以提高用于福祉评估的多模态基础模型的公平性。该研究在E-DAIC和AFAR-BSFT等数据集上评估了Phi3.5-Vision和Qwen2-VL，发现了性能差异和人口统计学偏见，其中Qwen2-VL显示出性别差异，而Phi-3.5-Vision则表现出种族偏见。尽管可解释性干预措施效果不一，有时能提高程序一致性但不能保证公平的结果，但这项工作强调了联合优化准确性、人口统计学均等性和泛化能力的需求。
RESEARCH · CL_02088 · Apr 23 · 08:04

VG-CoT: 通过基于实证的思维链实现可信赖的视觉推理

研究人员推出了VG-CoT，这是一个旨在提高大型视觉语言模型（LVLM）可信度的新数据集。该数据集可自动将推理步骤与图像中的特定视觉证据联系起来，克服了现有需要大量手动标注的数据集的局限性。VG-CoT还包括一个基准，用于评估LVLM在推理质量、答案准确性和推理-答案一致性方面的表现，初步实验显示LLaVA-1.5和Qwen2-VL等模型有所改进。