研究人员推出ToolFG,一个专为细粒度图像分类设计的新型框架,该框架集成了多模态大语言模型(MLLMs)和外部工具。这种方法允许MLLMs自主使用工具与图像交互并收集可验证的视觉线索,从而提高了区分高度相似类别之间的可靠性。该框架采用MCTS引导的知识蒸馏机制和模型-工具协同演进过程,以优化工具和模型在专业FGIC任务中的工具使用策略。 AI
影响 通过将MLLM与外部工具集成,为细粒度图像分类引入了一种新方法,有望提高区分相似视觉类别的准确性。
排序理由 该集群包含一篇描述新框架和方法的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →