English(EN) MOCHA: Multi-modal Objects-aware Cross-arcHitecture Alignment

MOCHA框架将VLM知识蒸馏到轻量级检测器中

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-24 04:00

研究人员开发了MOCHA，一个新颖的蒸馏框架，旨在将知识从大型视觉语言模型（VLM）转移到轻量级的、仅视觉的检测器中。该方法通过从冻结的VLM教师中提取融合的视觉和文本嵌入，解决了VLM在实时应用中的计算需求。MOCHA通过双目标损失引导学生检测器，确保区域间的准确局部对齐和全局关系一致性。该框架在少样本个性化检测基准测试中表现出显著的改进，平均比先前基线高出10.1%，且推理成本极低。 AI

影响通过将复杂的VLM能力转移到轻量级模型中，实现了更高效、更易于访问的个性化对象检测。

排序理由该集群包含一篇详细介绍新AI研究框架的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Elena Camuffo, Francesco Barbato, Mete Ozay, Simone Milani, Umberto Michieli · 2026-06-24 04:00

MOCHA: Multi-modal Objects-aware Cross-arcHitecture Alignment

arXiv:2509.14001v5 Announce Type: replace-cross Abstract: Personalized object detection aims to adapt a general-purpose detector to recognize user-specific instances from only a few examples. Lightweight models often struggle in this setting due to their weak semantic priors, whi…

报道来源 [1]

MOCHA: Multi-modal Objects-aware Cross-arcHitecture Alignment

相关实体

相关话题