实体
Qwen2-VL
Qwen2-VL
PulseAugur coverage of Qwen2-VL — every cluster mentioning Qwen2-VL across labs, papers, and developer communities, ranked by signal.
总计 · 30天
3
90 天内 3
发布 · 30天
0
90 天内 0
论文 · 30天
3
90 天内 3
层级分布 · 90 天
最近 · 第 1/1 页 · 共 3 条
-
GPT-4o 及其他多模态模型在计算机视觉任务上的评估
一篇新论文评估了包括 GPT-4o 和 Gemini 1.5 Pro 在内的多模态基础模型在标准计算机视觉任务上的表现。研究人员开发了一种提示链方法,将视觉任务转换为文本格式,以便 API 可访问的模型进行处理。研究发现,虽然这些模型是可靠的通才,但它们尚未能媲美专业的计算机视觉模型,在语义任务上的表现优于几何任务。GPT-4o 在非推理模型中表现最强,但具有原生图像生成能力模型出现了幻觉对象等故障模式。
-
FAIR_XAI框架揭示了多模态模型在福祉评估中的偏见
研究人员开发了FAIR_XAI框架,以提高用于福祉评估的多模态基础模型的公平性。该研究在E-DAIC和AFAR-BSFT等数据集上评估了Phi3.5-Vision和Qwen2-VL,发现了性能差异和人口统计学偏见,其中Qwen2-VL显示出性别差异,而Phi-3.5-Vision则表现出种族偏见。尽管可解释性干预措施效果不一,有时能提高程序一致性但不能保证公平的结果,但这项工作强调了联合优化准确性、人口统计学均等性和泛化能力的需求。
-
VG-CoT: 通过基于实证的思维链实现可信赖的视觉推理
研究人员推出了VG-CoT,这是一个旨在提高大型视觉语言模型(LVLM)可信度的新数据集。该数据集可自动将推理步骤与图像中的特定视觉证据联系起来,克服了现有需要大量手动标注的数据集的局限性。VG-CoT还包括一个基准,用于评估LVLM在推理质量、答案准确性和推理-答案一致性方面的表现,初步实验显示LLaVA-1.5和Qwen2-VL等模型有所改进。