实体 LM Evaluation Harness

LM Evaluation Harness

PulseAugur coverage of LM Evaluation Harness — every cluster mentioning LM Evaluation Harness across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 2

发布 · 30天

90 天内 0

论文 · 30天

90 天内 2

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 2 条

TOOL · CL_31715 · May 14 · 13:39

使用Qwen2.5-0.5B评估LLM的成本低于1美元

这篇博文详细介绍了一种经济高效的评估大型语言模型的方法，证明了运行全面的基准测试的成本可以低于一美元。作者使用免费的Google Colab T4实例在三个不同的任务上测试了Qwen2.5-0.5B模型：GSM8K用于数学推理，HellaSwag用于常识，TruthfulQA-MC2用于真实性。实验重点是测量运行时间和成本，利用lm-evaluation-harness并进行特定调整以优化性能和降低费用，例如限制生成令牌的长度。
RESEARCH · CL_09277 · Apr 29 · 16:45

AI模型评估正成为昂贵的瓶颈，成本已超越训练费用

AI模型评估正变得成本高昂，近期基准测试的成本高达数万美元，并消耗数千个GPU小时。对于本质上更复杂且对设置变化敏感的基于代理的评估而言，这种高成本尤为突出。虽然存在通过子采样降低静态基准测试成本的方法，但这些技术对于基于代理的评估的动态和嘈杂特性效果不佳，从而造成了研发瓶颈。

使用Qwen2.5-0.5B评估LLM的成本低于1美元

AI模型评估正成为昂贵的瓶颈，成本已超越训练费用