研究人员开发了ABACUS,一个能够理解和生成与物体计数相关的图像的统一视觉语言模型。该模型基于一个30亿参数的基础模型构建,集成了密度感知自适应缩放、边界感知计数策略以及循环一致的GRPO策略,以提高准确性并弥合理解与生成之间的差距。ABACUS在七个基准测试中均展现出最先进的性能,超越了专业模型和更大的通用模型。 AI
影响 该模型提升了视觉语言模型在计数相关任务中的能力,可能改进图像分析和生成方面的应用。
排序理由 该集群包含一篇详细介绍新模型及其在基准测试中性能的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →