研究人员开发了Atompack,这是一种专为原子机器学习训练数据集设计的新的存储和分发层。该格式针对训练过程中重复读取打乱顺序的分子记录的常见工作负载进行了优化,与HDF5和LMDB等现有解决方案相比,提供了显著的性能提升。Atompack实现了高达96倍的打乱读取速度提升,并且产生的工件体积减小79%,使其在大型科学数据集的训练和公开分发方面都更加高效。 AI
影响 优化了原子机器学习的数据处理,可能加速材料科学和药物发现等领域的研发。
排序理由 详细介绍用于机器学习的新数据存储格式的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →