PulseAugur
实时 03:38:20
实体 TruthfulQA-MC2

TruthfulQA-MC2

PulseAugur coverage of TruthfulQA-MC2 — every cluster mentioning TruthfulQA-MC2 across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_31715 ·

    使用Qwen2.5-0.5B评估LLM的成本低于1美元

    这篇博文详细介绍了一种经济高效的评估大型语言模型的方法,证明了运行全面的基准测试的成本可以低于一美元。作者使用免费的Google Colab T4实例在三个不同的任务上测试了Qwen2.5-0.5B模型:GSM8K用于数学推理,HellaSwag用于常识,TruthfulQA-MC2用于真实性。实验重点是测量运行时间和成本,利用lm-evaluation-harness并进行特定调整以优化性能和降低费用,例如限制生成令牌的长度。