PulseAugur
实时 12:52:09
实体 Wojciech Zarzecki

Wojciech Zarzecki

PulseAugur coverage of Wojciech Zarzecki — every cluster mentioning Wojciech Zarzecki across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_68280 ·

    AI基准审计方法在实际条件下失效

    一篇新的研究论文强调了当前检测大型语言模型基准污染方法的重大问题。该研究评估了包括前沿行业模型在内的27个模型,发现常见的统计工具在诸如分布偏移和基准与训练数据之间的规模差异等现实条件下会失效。这些工具在超过40%的评估中产生了不正确的结果,表明当前的检测方法对于实际基准审计是不可靠的,并且不能取代透明的数据来源。