ABACUS模型统一图像计数理解与生成

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-24 04:00

研究人员开发了ABACUS，一个能够理解和生成与物体计数相关的图像的统一视觉语言模型。该模型基于一个30亿参数的基础模型构建，集成了密度感知自适应缩放、边界感知计数策略以及循环一致的GRPO策略，以提高准确性并弥合理解与生成之间的差距。ABACUS在七个基准测试中均展现出最先进的性能，超越了专业模型和更大的通用模型。 AI

影响该模型提升了视觉语言模型在计数相关任务中的能力，可能改进图像分析和生成方面的应用。

排序理由该集群包含一篇详细介绍新模型及其在基准测试中性能的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

ABACUS
GRPO

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Anindya Mondal, Sauradip Nag, Anjan Dutta · 2026-06-24 04:00

ABACUS：用于图像计数理解与生成的自适应统一基础模型

arXiv:2606.23835v1 Announce Type: new Abstract: ABACUS is a unified vision-language model that handles object counting, crowd counting, referring-expression counting, and count-faithful image generation without any benchmark-specific training required. Our model is built on exist…

报道来源 [1]

ABACUS：用于图像计数理解与生成的自适应统一基础模型

相关实体

相关话题