English(EN) Unlocking the Visual Record of Materials Science: A Large-Scale Multimodal Dataset from Scientific Literature

新流程解锁材料科学文献中的视觉数据

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-30 04:00

研究人员开发了 MatMMExtract，一个开源流程，旨在解锁材料科学文献中的视觉数据。该系统将复杂的科学图表分解为单独的子面板，并使用大型语言模型和专门的分类法生成结构化注释。该系统应用于超过 14,000 篇文章，创建了 MatSciFig 数据集，包含近 400,000 个图像-文本对，每个都有详细的分类和摘要。该项目还推出了 MaterialScope，一个检测数据集，提高了 YOLO12-m 模型定位图面板的准确性，并发现 Gemini 3.1 Flash Lite 是生成注释最具成本效益的 LLM。 AI

影响能够对科学文献中的视觉数据进行大规模人工智能分析，可能加速材料科学的发现。

排序理由该集群描述了一个用于处理科学文献的新数据集和流程，属于研究类别。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Subham Ghosh, Shubham Tiwari, Mohammad Ibrahim, Abhishek Tewari · 2026-06-30 04:00

解锁材料科学的视觉记录：来自科学文献的大规模多模态数据集

arXiv:2606.29667v1 Announce Type: cross Abstract: The materials science literature encodes decades of experimental knowledge in figures, yet this visual record remains locked away and inaccessible to AI at scale. The core difficulty is structural: most scientific figures are comp…

报道来源 [1]

解锁材料科学的视觉记录：来自科学文献的大规模多模态数据集

相关实体

相关话题