English(EN) Metal-Sci: A Scientific Compute Benchmark for Evolutionary LLM Kernel Search on Apple Silicon

新的Metal-Sci基准测试大语言模型在科学计算任务上的表现

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-30 04:00

研究人员开发了Metal-Sci，一个旨在评估大语言模型（LLMs）在苹果芯片上科学计算任务性能的新基准。该基准包含六种优化机制下的10个不同任务，并提供CPU参考和适应度函数。在Apple M1 Pro芯片上的初步测试显示，Claude Opus 4.7、Gemini 3.1 Pro和GPT 5.5等模型在分布内速度提升显著，范围从1.00倍到10.7倍。一个关键的方法学贡献是使用了一个保留的门控评分函数，以提供监督并检测模型在未见数据上性能的静默回归。 AI

影响该基准可能会推动大语言模型在苹果硬件上针对特定科学计算任务的开发。

排序理由该集群包含一篇研究论文，详细介绍了用于评估大语言模型在科学计算任务上性能的新基准。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · V\'ictor Gallego · 2026-06-30 04:00

Metal-Sci: A Scientific Compute Benchmark for Evolutionary LLM Kernel Search on Apple Silicon

arXiv:2605.09708v2 Announce Type: replace-cross Abstract: We present Metal-Sci, a 10-task benchmark of scientific Apple Silicon Metal compute kernels spanning six optimization regimes (stencils, all-pairs in $n$-body problems, multi-field Boltzmann, neighbor-list molecular dynami…

报道来源 [1]

Metal-Sci: A Scientific Compute Benchmark for Evolutionary LLM Kernel Search on Apple Silicon

相关实体

相关话题