一项新的研究论文揭示,自改进的视觉语言模型(VLMs)可能在新任务上出现性能回退,这与更强的验证器总是能带来更强的学生模型的假设相反。研究发现,验证器的质量高度依赖于具体任务,在一个任务上提高性能的验证器实际上会在另一个任务上降低性能。这种回退是悄无声息发生的,即使在性能下降时训练损失也在减少,并且会被自信错误的偏好对所放大。 AI
影响 强调了自改进VLMs技术中的一个关键缺陷,表明需要更鲁棒的验证和特定任务的评估方法。
排序理由 该集群包含一篇研究论文,详细介绍了关于自改进VLMs行为的新发现。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →