PulseAugur
实时 10:05:29
实体 Bias Benchmark for QA

Bias Benchmark for QA

PulseAugur coverage of Bias Benchmark for QA — every cluster mentioning Bias Benchmark for QA across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_24454 ·

    开发者将Gemma 4 E4B微调为30美元的偏见裁判

    一位开发者花费约30美元,将Google的Gemma 4 E4B模型微调成一个偏见裁判。整个过程耗时两周,大部分精力花在了数据管道构建上,而非GPU时间。该模型能够本地运行,并在30秒内评估响应对,使用偏见问答基准(BBQ)数据集来识别社会偏见。开发者遇到了分类泄露、BBQ数据集施加的数据上限以及用于标注的不同LLM之间的分歧等挑战,最终导致了一种精炼的数据构建策略。