FineVision 数据集发布，以促进视觉-语言模型研究

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-22 04:00

研究人员推出了 FineVision，这是一个包含 2400 万个样本的新数据集，旨在推进视觉-语言模型（VLM）。该语料库通过一个半自动、人工参与的流程，整合了 200 多个来源，确保了数据的卫生、去重和安全性。与在现有开放数据集上训练的模型相比，在 FineVision 上训练的模型表现出更优越的性能，凸显了规模和细致的数据整理对 VLM 开发的重要性。该数据集及其整理工具的发布旨在促进以数据为中心的 VLM 方法的进一步研究。 AI

影响提供了一个大型、干净的数据集，以加速视觉-语言模型的研究和开发。

排序理由该集群描述了一篇介绍用于人工智能研究的大型数据集的新学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Luis Wiedmann, Orr Zohar, Amir Mahla, Xiaohan Wang, Rui Li, Thibaud Frere, Leandro von Werra, Aritra Roy Gosthipaty, Andr\'es Marafioti · 2026-05-22 04:00

FineVision: Open Data Is All You Need

arXiv:2510.17269v2 Announce Type: replace-cross Abstract: The advancement of vision-language models (VLMs) is hampered by a fragmented landscape of inconsistent and contaminated public datasets. We introduce FineVision, a meticulously collected, curated, and unified corpus of 24 …

报道来源 [1]

FineVision: Open Data Is All You Need

相关实体

相关话题