研究人员开发了HANCLIP,一类新的视觉-语言模型,旨在改进负样本处理。与难以处理否定语句的传统模型不同,HANCLIP重构了其嵌入空间,以便明确编码图像“不是”什么,以及“是”什么。这种方法使用双曲公式和角三元组目标,在一个小型数据集上进行训练,以增强负样本敏感性,同时不降低在标准基准上的性能。该框架是可适应的,并且可以集成到现有的模型中,如CLIP和LongCLIP。 AI
影响 增强了现有视觉-语言模型(特别是负样本处理方面)的推理能力,有可能提高其在复杂场景下的可靠性。
排序理由 该集群描述了一篇详细介绍视觉-语言任务新模型架构的最新研究论文。
在 arXiv cs.IR (Information Retrieval) 阅读 →
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →