研究人员开发了一种名为HCM-GRPO的新方法,以提高多模态大语言模型(MLLMs)的物理合理性推理能力。该方法包括一个硬案例挖掘策略和一个动态比例精度奖励,并将其整合到Group Relative Policy Optimization框架中。为了支持这一点,创建了一个包含超过128,000个样本的数据集,约有640,000张图像,用于评估外观、阴影、布局和延伸合理性方面的推理能力。实验表明,即使是GPT5.2和Gemini3-Pro等先进模型也难以胜任这项任务,而HCM-GRPO方法使用一个更小的模型取得了卓越的成果。 AI
影响 增强了AI理解和生成物理上合理图像的能力,可能改进图像筛选和内容审核。
排序理由 该集群包含一篇学术论文,详细介绍了一种提高AI模型能力的新方法和数据集。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →