English(EN) Reliability-Prioritized Fine-Grained Generation in Multimodal Large

新基准和方法改进了大型语言模型中的细粒度图像描述

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-30 04:00

研究人员发现，在多模态大型语言模型（MLLMs）中，生成细粒度视觉描述比粗粒度描述更容易出错。为了解决这个问题，他们开发了GranFact，这是一个具有专家验证的多对象图像注释的新基准，以及一个层次感知评估算法。他们还提出了一种优先考虑可靠特异性的偏好优化方法，该方法在保持准确性的同时提高了细粒度生成能力。 AI

影响这项研究可能导致人工智能系统更准确、更可靠的视觉理解，从而改进依赖于详细图像描述的应用程序。

排序理由该集群包含一篇学术论文，详细介绍了多模态大型语言模型的新基准和方法论。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Xiaomeng Fan, Wu Wei, Yuwei Wu, Zhi Gao, Shiyu Luo, Mingyang Gao, Haoyu Zhao, Zhenxin Diao, Yuxuan Ba, Lijia Feng, Yunde Jia, Mehrtash Harandi · 2026-06-30 04:00

Reliability-Prioritized Fine-Grained Generation in Multimodal Large

arXiv:2606.29573v1 Announce Type: new Abstract: Multimodal large language models (MLLMs) are increasingly expected to generate fine-grained descriptions of visual content. However, we observe and theoretically show that generating fine-grained responses poses a reliability challe…

报道来源 [1]

Reliability-Prioritized Fine-Grained Generation in Multimodal Large

相关实体

相关话题