PulseAugur
实时 02:38:24

新方法在无需微调的情况下实现最先进的多模态分类

研究人员开发了CoMET,一种利用冻结的预训练骨干网络和表格基础模型(TFMs)的多模态分类新方法。该方法使用主成分分析(PCA)压缩模态嵌入,然后将其输入TFM,从而无需微调。为了提高表示质量,尤其是在CLS标记未对齐的情况下,他们提出了PALPooling,一种自适应标记池化器。CoMET在各种多模态基准测试中取得了最先进的成果,并且可以在没有进行任何训练的情况下处理包含超过50万个样本和2000个类别的大规模数据集。 AI

影响 该方法挑战了传统的微调方法,有可能在各个领域实现更快、更具可扩展性的多模态分类。

排序理由 该集群描述了一篇详细介绍多模态分类新方法的新研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 Hugging Face Daily Papers 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. Hugging Face Daily Papers TIER_1 English(EN) ·

    Modular Multimodal Classification Without Fine-Tuning: A Simple Compositional Approach

    We introduce CoMET, \textit{\textbf{C}omposing \textbf{M}odality \textbf{E}ncoders with \textbf{T}abular foundation models}, a simple yet highly competitive method for multimodal classification: pass each modality through a frozen pre-trained backbone, compress the resulting embe…