研究人员开发了Metal-Sci,一个旨在评估大语言模型(LLMs)在苹果芯片上科学计算任务性能的新基准。该基准包含六种优化机制下的10个不同任务,并提供CPU参考和适应度函数。在Apple M1 Pro芯片上的初步测试显示,Claude Opus 4.7、Gemini 3.1 Pro和GPT 5.5等模型在分布内速度提升显著,范围从1.00倍到10.7倍。一个关键的方法学贡献是使用了一个保留的门控评分函数,以提供监督并检测模型在未见数据上性能的静默回归。 AI
影响 该基准可能会推动大语言模型在苹果硬件上针对特定科学计算任务的开发。
排序理由 该集群包含一篇研究论文,详细介绍了用于评估大语言模型在科学计算任务上性能的新基准。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →