研究人员开发了Custom ZeroCLIP,一个新颖的检索增强视觉-语言框架,专为印度尼西亚传统服装的零样本描述而设计。该系统结合了CLIP和BERT文本编码器以及LSTM字幕解码器,在来自24个印度尼西亚省份的数据上进行训练,并在8个未见过省份上进行评估。该框架取得了强劲的性能,CLIPScore为0.8536,BLEU-4为0.3342,METEOR为0.4859,在文化词汇恢复和整体准确性方面显示出显著的改进,特别是在低资源遗产背景下。 AI
影响 推动了文化遗产数据的零样本描述能力,可能提高专业视觉数据集的可访问性和分析能力。
排序理由 该集群描述了一篇在arXiv上发表的研究论文,详细介绍了一个用于图像分析和描述的新框架。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →