English(EN) WAON: A Large-Scale Japanese Image-Text Dataset for Cultural Adaptation in Contrastive Vision-Language Models

新的日本图像文本数据集提升AI文化理解能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-02 04:00

研究人员推出了WAON，这是一个大规模的日本图像文本数据集，包含约1.55亿个来自日本本土网络内容的示例。该数据集旨在提高对比视觉语言模型的文化理解能力。同时，他们开发了WAON-Bench，一个包含374个类别的精选日本文化理解基准。实验表明，在WAON上微调的模型在执行日本文化任务时，其表现优于在翻译的英文数据上训练的模型。 AI

影响能够开发出对日本文化和语言细微差别有更好理解的AI模型。

排序理由该集群描述了一篇介绍用于AI研究的数据集和基准的新学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Issa Sugiura, Shuhei Kurita, Yusuke Oda, Daisuke Kawahara, Yasuo Okabe, Naoaki Okazaki · 2026-06-02 04:00

WAON: A Large-Scale Japanese Image-Text Dataset for Cultural Adaptation in Contrastive Vision-Language Models

arXiv:2510.22276v3 Announce Type: replace-cross Abstract: Contrastive vision-language models have achieved remarkable progress through large-scale pretraining. Recent work has shown that removing English-only caption filters and pretraining on global data is effective for improvi…

报道来源 [1]

WAON: A Large-Scale Japanese Image-Text Dataset for Cultural Adaptation in Contrastive Vision-Language Models

相关实体

相关话题