实体 evaluator agent

evaluator agent

PulseAugur coverage of evaluator agent — every cluster mentioning evaluator agent across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_123035 · Jul 1 · 20:22

新框架解决简历改写中LLM幻觉问题

研究人员开发了一个名为Grounded Optimization的新框架，以解决大型语言模型（LLM）在应用于自动化个人文档改写（如简历）时出现的幻觉问题。该五层框架包含时间上下文验证、确定性污染检测、结构不变性强制执行、提示级接地和评估代理。实验表明幻觉显著减少，每份简历检测到的总体幻觉率降至0.04-0.24，时间幻觉减少了50-95%。该研究还发布了其污染分类法、评估代码和数据，其中提示级接地本身已被证明对某些模型和条件有效。