PulseAugur
实时 10:55:01
实体 BrowseComp+

BrowseComp+

PulseAugur coverage of BrowseComp+ — every cluster mentioning BrowseComp+ across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
4
90 天内 4
发布 · 30天
0
90 天内 0
论文 · 30天
3
90 天内 3
层级分布 · 90 天
情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 4 条
  1. RESEARCH · CL_37215 ·

    Hugging Face launches Open Agent Leaderboard for AI systems

    Hugging Face has launched the Open Agent Leaderboard, a new framework for evaluating the performance and cost of AI agent systems. This benchmark focuses on assessing an agent's generality across diverse tasks and setti…

  2. RESEARCH · CL_44793 ·

    Argus代理系统像拼图一样组装研究证据

    研究人员开发了Argus,一个新颖的代理系统,旨在通过将证据收集视为拼图组装来改进深度研究能力。与经常重复信息的并行搜索方法不同,Argus采用搜索者(Searcher)和导航者(Navigator)组合。搜索者收集证据痕迹,而导航者管理证据图,识别缺失的部分,并综合最终答案。这种方法在基准测试中显著提高了性能,64个搜索者在BrowseComp上取得了86.2的成绩,在保持可管理的上下文窗口的同时,性能优于专有代理。

  3. RESEARCH · CL_20273 ·

    OpenSearch-VL 提供高级多模态搜索代理的开放式方案

    研究人员开发了 OpenSearch-VL,这是一种新颖的、完全开源的、用于训练高级多模态深度搜索代理的方案。该方法利用了一个精心策划的高质量训练数据管道、一个结合文本和图像搜索以及各种处理能力的多元化工具环境,以及一个专门用于处理工具失败的训练算法。由此产生的代理在多项基准测试中表现出显著的性能提升,可与专有模型相媲美,旨在使前沿搜索代理研究更加易于获取。

  4. FRONTIER RELEASE · CL_01790 ·

    Kimi K2 model boasts 1T parameters and SOTA HLE, while Soumith Chintala departs PyTorch

    Kimi K2, a new model from Kimi, boasts 1 trillion parameters and achieves state-of-the-art results on the HLE benchmark. It also demonstrates capabilities in BrowseComp and TauBench. Separately, Soumith Chintala has dep…