PulseAugur
实时 21:05:46
实体 eval-sanity

eval-sanity

PulseAugur coverage of eval-sanity — every cluster mentioning eval-sanity across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
0
90 天内 0
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_78439 ·

    新工具可检测RAG系统中的静默性能下降

    一款名为eval-sanity v0.2的新工具已发布,用于检测检索增强生成(RAG)系统中的静默回归。当检索器组件退化,导致其错过相关文档,但生成器继续从部分上下文中生成流畅的答案,从而在标准仪表板上掩盖了问题时,就会发生这些回归。该工具使用评估运行的统计分析来区分检索的显著下降与正常的指标波动,从而防止误报并提醒用户注意隐藏的性能下降。