PulseAugur
实时 06:34:25
English(EN) Atompack: A Storage and Distribution Layer for Read-Heavy Atomistic ML Training Datasets

新的Atompack格式加速原子机器学习数据集训练

研究人员开发了Atompack,这是一种专为原子机器学习训练数据集设计的新的存储和分发层。该格式针对训练过程中重复读取打乱顺序的分子记录的常见工作负载进行了优化,与HDF5和LMDB等现有解决方案相比,提供了显著的性能提升。Atompack实现了高达96倍的打乱读取速度提升,并且产生的工件体积减小79%,使其在大型科学数据集的训练和公开分发方面都更加高效。 AI

影响 优化了原子机器学习的数据处理,可能加速材料科学和药物发现等领域的研发。

排序理由 详细介绍用于机器学习的新数据存储格式的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的Atompack格式加速原子机器学习数据集训练

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Ali Ramlaoui, Daniel T. Speckhard, Sagar Pal, Fragkiskos D. Malliaros, Alexandre Duval, Victor Schmidt ·

    Atompack: 专为读密集型原子机器学习训练数据集设计的存储与分发层

    arXiv:2606.29975v1 Announce Type: new Abstract: Atomistic machine learning datasets are increasingly used for training: large immutable snapshots are read repeatedly, shuffled across epochs, staged across clusters' storage systems, and republished as reusable scientific artifacts…