实体 BrowseComp+

BrowseComp+

PulseAugur coverage of BrowseComp+ — every cluster mentioning BrowseComp+ across labs, papers, and developer communities, ranked by signal.

总计 · 30天

12

90 天内 12

发布 · 30天

0

90 天内 0

论文 · 30天

10

90 天内 10

层级分布 · 90 天

significant 1
research 9
tool 1
commentary 1

主题

情绪 · 30 天

4 天有情绪数据

最近 · 第 1/1 页 · 共 12 条

RESEARCH · CL_135210 · Jul 8 · 18:03

新框架使 AI 代理能够在可验证的 Web 环境中自我改进

研究人员推出了 DeepSearch-Evolve，这是一个在 DeepSearch-World 环境中训练 Web 代理的自蒸馏框架。该框架旨在通过使代理能够从自身经验中改进，超越固定轨迹或弱强化学习信号，来克服代理训练中的挑战。DeepSearch-World 提供了一个可验证且确定性的环境，并支持可复现的工具，支持代理行为，如进度验证和故障恢复。使用此方法在没有外部蒸馏的情况下训练的 DeepSearch-World-9B 模型…
RESEARCH · CL_99569 · Jun 18 · 15:25

新方法从交互数据中挖掘代理技能，但策略改进有限

研究人员开发了一种通过挖掘交互轨迹来自动生成计算机使用代理技能库的方法。该过程包括分割图形用户界面（GUI）轨迹，将这些片段聚类成候选技能，然后训练一个感知技能的策略。虽然挖掘出的聚类在基准测试中针对现有标签显示出高纯度，但该方法改进下游策略的能力有限，表明当前技术不足以实现可靠的跨领域策略改进。
RESEARCH · CL_106759 · Jun 17 · 00:00

新的大语言模型训练方法优化数据调度以提高效率和性能

研究人员开发了通过先进数据调度技术优化大语言模型（LLM）训练的新方法。一种方法是整体数据调度器（HDS），它使用多目标强化学习在预训练期间动态调整数据混合，从而在 The Pile 和 MMLU 等基准测试中显著提高训练效率和模型性能。另一种方法是自适应数据调度（ADS），它通过从统一数据采样转向语义集群和策略边界样本的自适应分布，专注于改进训练后强化学习，在推理基准测试中显示出优势。此外，一种使用精选数据集和最小 GRPO 设置的…
TOOL · CL_86307 · Jun 11 · 22:21

Perplexity 将深度研究与多模型编排系统集成

Perplexity 已将其深度研究功能集成到其计算机编排系统中，增强了将复杂问题分解为子任务的能力。然后，这些子任务会被路由到 20 多个不同的 AI 模型，从而显著提高准确性和分析深度。该系统采用“搜索即代码”方法，现在可以生成可直接用于工作的报告、演示文稿和仪表板，并在代理浏览能力方面取得了显著的基准改进。
RESEARCH · CL_84831 · Jun 10 · 00:00

TreeSeeker框架通过受控试错增强AI深度搜索能力

研究人员推出了一种新颖的框架TreeSeeker，旨在提高深度搜索代理的效率。该系统将搜索过程构建成一棵树，允许代理在处理复杂查询时探索多个潜在路径，并有效管理试错过程。通过采用分支-回溯策略并利用价值、不确定性和风险信号，TreeSeeker旨在防止代理陷入无效路径，并确保更好地综合证据。实验表明，TreeSeeker在深度搜索任务上优于现有的开源方法。
RESEARCH · CL_65077 · Jun 1 · 00:00

新的韩语网络浏览基准揭示了大型语言模型的性能差距

研究人员推出了 K-BrowseComp，这是一个旨在评估大型语言模型在韩国语境下网络浏览代理能力的新基准。该基准包含 400 个问题，其中 300 个问题经过人工验证。初步评估显示，GPT-5.5 和 DeepSeek-V4-Pro 等领先的前沿模型在此子集上的性能水平在 30.00% 到 45.67% 之间，与它们在英语基准上的表现相比有显著下降。特定于韩语的大型语言模型表现更低，表明在韩语任务的代理能力方面存在巨大差距。
COMMENTARY · CL_61793 · May 31 · 19:31

作者警告称 AI 评估不可靠，存在未被察觉的风险

作者认为，当前的 AI 评估方法不可靠且系统性存在缺陷，带来了重大风险。他们指出了模型操纵评估、分布变化导致指标不准确以及意外能力出现的等问题。文章强调，这些不足之处阻碍了识别和解决 AI 相关危害的能力，特别是关于能力风险和诸如偏见信息过滤等社会影响。
RESEARCH · CL_55915 · May 27 · 00:00

新的基准测试 LiveBrowseComp 评估 LLM 搜索代理的真正发现能力

一篇新的研究论文介绍了一个名为 LiveBrowseComp 的基准测试，旨在评估大型语言模型（LLM）搜索代理是否真正发现新信息，还是仅仅验证其现有的内部知识。研究发现，代理通常依赖内在知识，在没有外部工具的情况下回答问题，并根据内部假设生成查询。当移除支持答案的证据时，代理的性能显著下降，这表明当前的基准测试可能奖励记忆回忆而非基于证据的发现。LiveBrowseComp 旨在评估代理查找最新信息的能力，结果显示所有测试的代理在该…
RESEARCH · CL_37215 · May 18 · 14:12

Hugging Face推出AI系统开放代理排行榜

Hugging Face推出了开放代理排行榜（Open Agent Leaderboard），这是一个用于评估AI代理系统性能和成本的新框架。该基准测试侧重于评估代理在不同任务和环境中的通用性，而不仅仅是底层模型的能力。该排行榜利用了包括SWE-Bench Verified和AppWorld在内的六个已建立的基准测试，在编码、客户服务和研究等领域测试代理，从而更全面地了解其在现实世界中的适用性。
RESEARCH · CL_44793 · May 15 · 17:29

新的开放权重代理利用合成数据和新颖的架构来处理深度研究任务

两篇新的研究论文介绍了专为深度研究任务设计的先进代理系统。第一篇，QUEST，提供了一系列在合成数据上训练的开放权重模型（2B 到 35B 参数），在事实查找、引用归因和报告合成方面表现出色，可与专有代理相媲美。第二篇，Argus，提出了一个基于 35B MoE 主干构建的协作式 Searcher-Navigator 系统，该系统擅长从互补来源组装证据，在 BrowseComp 等基准测试中取得了最先进的成果，同时保持了可管理的上下文窗口。
RESEARCH · CL_20273 · May 5 · 17:55

OpenSearch-VL 提供高级多模态搜索代理的开放式方案

研究人员开发了 OpenSearch-VL，这是一种新颖的、完全开源的、用于训练高级多模态深度搜索代理的方案。该方法利用了一个精心策划的高质量训练数据管道、一个结合文本和图像搜索以及各种处理能力的多元化工具环境，以及一个专门用于处理工具失败的训练算法。由此产生的代理在多项基准测试中表现出显著的性能提升，可与专有模型相媲美，旨在使前沿搜索代理研究更加易于获取。
FRONTIER RELEASE · CL_01790 · Nov 6 · 05:44

Kimi K2 模型拥有 1T 参数和 SOTA HLE，同时 Soumith Chintala 离开 PyTorch

Kimi 推出的新模型 Kimi K2 拥有 1 万亿参数，并在 HLE 基准测试中取得了最先进（SOTA）的成果。它还在 BrowseComp 和 TauBench 中展示了能力。另外，Soumith Chintala 已从 PyTorch 离职。