English(EN) Calibrated LLM-as-judge: how I made my LLM give honest 4/10 scores instead of always-an-8

开发者校准LLM评委，以实现真实的广告脚本评分

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-24 19:30

一位开发者创建了一个生成广告脚本的系统，其中LLM最初对生成的钩子给予了过高的分数。为解决此问题，开发者在系统提示中实施了三层方法。这包括提供一个校准的评分标准，其中包含每个分数的清晰定义，并提供范例，以及强制执行结构化JSON输出，以确保LLM遵守评分指南，从而实现更真实的评分分布。 AI

影响提供了一种无需微调即可提高LLM评估准确性的实用方法，从而能够更可靠地评估AI生成的内容。

排序理由文章详细介绍了一种通过创建校准的评分标准和结构化输出来改进LLM评估的新颖方法，这是一种对LLM能力的研究。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

dev.to — LLM tag TIER_1 English(EN) · Tram Victor · 2026-05-24 19:30

校准的LLM即判官：我如何让我的LLM给出诚实的4/10评分，而不是总是8分

<h2> TL;DR </h2> <p>Built a UGC ad-script generator (5 scripts per request). Each script's hook is self-scored 1-10 by the same LLM. Naive prompt = every hook scores 8-9, useless. Fixed by writing a <strong>calibration rubric in the system prompt</strong>, anchoring with <strong>…