实体
LLM evaluation
LLM evaluation
PulseAugur coverage of LLM evaluation — every cluster mentioning LLM evaluation across labs, papers, and developer communities, ranked by signal.
总计 · 30天
3
90 天内 3
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
时间线
- 2026-05-11 research_milestone A research paper was published investigating biases in LLM toxicity benchmarks. 来源
情绪 · 30 天
3 天有情绪数据
最近 · 第 1/1 页 · 共 3 条
-
JetBrains launches AI observability tool for LLM agent monitoring
JetBrains has released a new tool focused on enhancing AI agent monitoring and observability. This tool aims to provide robust LLM evaluation capabilities, allowing developers to better understand and manage the perform…
-
大型语言模型毒性基准显示偏见,可能导致模型部署不安全
一篇新的研究论文探讨了大型语言模型(LLM)毒性基准中的偏见,强调了将这些模型用于面向客户的应用程序可能存在的风险。研究表明,改变评估设置,例如从文本补全任务转向摘要任务,会显著改变基准标记内容为有害的方式。此外,当修改输入数据域或测试不同模型时,一些基准会表现出不一致的行为,这凸显了对更强大的安全评估框架的需求。
-
新的贝叶斯辅助置信序列改进不确定性量化
研究人员开发了一个新的贝叶斯辅助框架,用于构建置信序列,为有界均值提供时间一致的不确定性量化。该方法使用贝叶斯预测模型自适应地选择马丁格尔更新,以最大化预测对数增长,即使在先验模型错误指定的情况下也能确保有效性。该过程被证明在Wasserstein一致性下渐近对数最优,可与预言机程序相媲美。实验表明,信息性先验可以显著缩小置信区间并减少采样需求,应用包括LLM评估。