PulseAugur
实时 10:17:43
实体 evaluator agent

evaluator agent

PulseAugur coverage of evaluator agent — every cluster mentioning evaluator agent across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_123035 ·

    新框架解决简历改写中LLM幻觉问题

    研究人员开发了一个名为Grounded Optimization的新框架,以解决大型语言模型(LLM)在应用于自动化个人文档改写(如简历)时出现的幻觉问题。该五层框架包含时间上下文验证、确定性污染检测、结构不变性强制执行、提示级接地和评估代理。实验表明幻觉显著减少,每份简历检测到的总体幻觉率降至0.04-0.24,时间幻觉减少了50-95%。该研究还发布了其污染分类法、评估代码和数据,其中提示级接地本身已被证明对某些模型和条件有效。