实体 deep research agents

deep research agents

PulseAugur coverage of deep research agents — every cluster mentioning deep research agents across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 6

发布 · 30天

90 天内 0

论文 · 30天

90 天内 5

层级分布 · 90 天

主题

情绪 · 30 天

4 天有情绪数据

最近 · 第 1/1 页 · 共 6 条

COMMENTARY · CL_137398 · Jul 11 · 14:31

研究代理使用问题分解进行复杂的业务分析

深度研究代理可以通过首先将复杂的业务问题分解为集中的、可搜索的子问题来有效解决这些问题。这种分解使代理能够系统地收集和评估各个领域的信息，例如市场规模、客户需求、监管要求、基础设施成本、竞争压力和定价。通过创建结构化的研究计划并结合研究结果，这些代理可以生成更可靠、更值得信赖的答案，同时也更容易识别和解决任何缺失的证据。
TOOL · CL_135377 · Jul 10 · 04:00

新的DR-Arena框架自动化LLM代理评估

研究人员开发了DR-Arena，一个旨在评估深度研究代理能力的自动化评估框架。深度研究代理是能够进行自主调查的高级大型语言模型。与静态基准测试不同，DR-Arena利用当前网络趋势的实时信息来创建动态任务，以测试深度推理和广泛覆盖范围。该框架采用自适应系统，根据代理性能升级任务复杂度，旨在识别能力边界。实验表明，DR-Arena与人类偏好高度一致，与LMSYS Search Arena排行榜实现了0.94的Spearman相关性，为手…
TOOL · CL_110956 · Jun 25 · 19:19

新研究表明13个词即可通过用户内容毒害LLM

一篇新研究论文详细介绍了一种通过微妙地改变用户生成内容来毒害大型语言模型（LLM）的方法。研究表明，仅13个词就足以损害模型的完整性，对AI安全性和可靠性构成重大威胁。
TOOL · CL_92135 · Jun 15 · 14:45

研究论文揭示用户生成内容可投毒深度研究AI代理

一项新的研究论文详细介绍了一种深度研究代理的漏洞，该代理可能通过用户生成的内容受到损害。该研究可在arXiv上找到，探讨了恶意输入如何能够投毒这些AI系统。这一发现引发了对当前AI发展状况和炒作的质疑。
TOOL · CL_74401 · Jun 6 · 04:00

研究论文警告“搜索时污染”会夸大AI代理基准测试结果

一篇新研究论文指出了深度研究代理中存在的一个问题，称为搜索时污染（STC），这些代理在评估中使用网络搜索。当代理从网络检索基准元数据、问题上下文或答案时，就会发生这种污染，从而人为地夸大了它们的性能。研究发现STC可以将性能夸大高达4%，并提倡采用防污染的评估实践，例如隔离的沙箱和受控的基准访问。
TOOL · CL_40852 · May 18 · 23:55

新基准揭示LLM法官在研究代理方面不可靠

研究人员开发了一个名为REFLECT的新基准，用于评估大型语言模型（LLM）作为深度研究代理的法官时的可靠性。这些代理可以自动化复杂的搜集信息任务，其输出需要可扩展的评估，通常依赖LLM法官来判断准确性和推理质量。然而，当前的LLM法官表现出显著的不可靠性，顶级模型在评估推理、工具使用和报告质量方面的准确率不到55%，尤其在证据核实方面存在困难。REFLECT基准提供了详细的失败模式分类，并通过对代理执行轨迹进行受控干预，创建可验证的…

研究代理使用问题分解进行复杂的业务分析

新的DR-Arena框架自动化LLM代理评估

新研究表明13个词即可通过用户内容毒害LLM

研究论文揭示用户生成内容可投毒深度研究AI代理

研究论文警告“搜索时污染”会夸大AI代理基准测试结果

新基准揭示LLM法官在研究代理方面不可靠