PulseAugur
实时 09:03:02
实体 LM Evaluation Harness

LM Evaluation Harness

PulseAugur coverage of LM Evaluation Harness — every cluster mentioning LM Evaluation Harness across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 2 条
  1. TOOL · CL_31715 ·

    使用Qwen2.5-0.5B评估LLM的成本低于1美元

    这篇博文详细介绍了一种经济高效的评估大型语言模型的方法,证明了运行全面的基准测试的成本可以低于一美元。作者使用免费的Google Colab T4实例在三个不同的任务上测试了Qwen2.5-0.5B模型:GSM8K用于数学推理,HellaSwag用于常识,TruthfulQA-MC2用于真实性。实验重点是测量运行时间和成本,利用lm-evaluation-harness并进行特定调整以优化性能和降低费用,例如限制生成令牌的长度。

  2. RESEARCH · CL_09277 ·

    AI model evaluations are becoming a costly bottleneck, surpassing training expenses

    AI model evaluations are becoming prohibitively expensive, with recent benchmarks costing tens of thousands of dollars and consuming thousands of GPU hours. This high cost is particularly pronounced for agent-based eval…