实体 TruthfulQA-MC2

TruthfulQA-MC2

PulseAugur coverage of TruthfulQA-MC2 — every cluster mentioning TruthfulQA-MC2 across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_31715 · May 14 · 13:39

使用Qwen2.5-0.5B评估LLM的成本低于1美元

这篇博文详细介绍了一种经济高效的评估大型语言模型的方法，证明了运行全面的基准测试的成本可以低于一美元。作者使用免费的Google Colab T4实例在三个不同的任务上测试了Qwen2.5-0.5B模型：GSM8K用于数学推理，HellaSwag用于常识，TruthfulQA-MC2用于真实性。实验重点是测量运行时间和成本，利用lm-evaluation-harness并进行特定调整以优化性能和降低费用，例如限制生成令牌的长度。