在Jetson Orin Nano Super 8GB设备上对八个小型语言模型(1.35亿至约10亿参数)进行了基准测试。测试使用了llama.cpp CUDA后端,探索了四种功耗模式(7W、15W、25W、MAXN)。研究结果表明,25W功耗模式在所有测试模型中提供了性能和效率的最佳平衡,在每焦耳生成的令牌数量方面优于15W和MAXN模式。 AI
影响 确定了在边缘设备上运行小型LLM的最佳功耗效率,为硬件和软件配置提供指导。
排序理由 在特定硬件上对多个小型LLM进行基准测试。[lever_c_demoted from research: ic=1 ai=0.7]
- Gemma3-1B
- Jetson Orin Nano Super 8GB
- LFM2.5-1.2B
- LFM2.5-350M
- Llama3.2-1B
- llama.cpp
- NVIDIA
- SmolLM2-135M
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →