实体
LM Evaluation Harness
LM Evaluation Harness
PulseAugur coverage of LM Evaluation Harness — every cluster mentioning LM Evaluation Harness across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
情绪 · 30 天
1 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
使用Qwen2.5-0.5B评估LLM的成本低于1美元
这篇博文详细介绍了一种经济高效的评估大型语言模型的方法,证明了运行全面的基准测试的成本可以低于一美元。作者使用免费的Google Colab T4实例在三个不同的任务上测试了Qwen2.5-0.5B模型:GSM8K用于数学推理,HellaSwag用于常识,TruthfulQA-MC2用于真实性。实验重点是测量运行时间和成本,利用lm-evaluation-harness并进行特定调整以优化性能和降低费用,例如限制生成令牌的长度。
-
AI model evaluations are becoming a costly bottleneck, surpassing training expenses
AI model evaluations are becoming prohibitively expensive, with recent benchmarks costing tens of thousands of dollars and consuming thousands of GPU hours. This high cost is particularly pronounced for agent-based eval…