实体 AI Evaluations

AI Evaluations

PulseAugur coverage of AI Evaluations — every cluster mentioning AI Evaluations across labs, papers, and developer communities, ranked by signal.

总计 · 30天

2

90 天内 2

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 2 条

SIGNIFICANT · CL_116495 · Jun 29 · 17:39

AI排行榜Arena达到1亿美元收入里程碑

Arena，这家以其AI模型性能排行榜而闻名的公司，在推出商业服务仅八个月后，年化经常性收入就达到了1亿美元。该平台最初是加州大学伯克利分校的一个研究项目，通过其AI评估服务产生收入，为模型实验室和企业提供深度分析。这种快速增长凸显了在AI提供商致力于优化模型性能之际，对训练后优化服务的需求，使Arena成为AI开发生态系统中的重要参与者。
RESEARCH · CL_50649 · May 25 · 10:24

新的AI评估范式：参考安全

一篇新的研究论文提出了“参考安全”作为AI评估的框架，以应对持续更新的AI系统的挑战。该论文认为，当前的评估方法常常失效，因为模型标识保持静态，而底层组件在未通知的情况下发生变化。参考安全旨在确保安全声明和审计结果与特定的、可验证的工件相关联，从而实现可复现的评估、有效的纵向审计和跨提供商的等效性。