实体 Humanity's Last Exam

Humanity's Last Exam

PulseAugur coverage of Humanity's Last Exam — every cluster mentioning Humanity's Last Exam across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 16

发布 · 30天

90 天内 0

论文 · 30天

90 天内 7

层级分布 · 90 天

significant 3
research 5
tool 7
commentary 1

主题

关系

情绪 · 30 天

3 天有情绪数据

最近 · 第 1/1 页 · 共 16 条

COMMENTARY · CL_122014 · Jul 2 · 12:04

AI基准测试“人类最后的考试”被批评为分心之举

文章《人类最后的考试》批评了人工智能评估基准测试，探讨了它的起源以及围绕其创建的各种专家意见。文章认为，该基准测试可能分散了人们对人工智能发展中更紧迫问题的注意力。
TOOL · CL_121309 · Jul 2 · 02:39

OpenClaw AI 代理框架日趋成熟，获得更广泛的应用

OpenClaw 是一个开源 AI 代理框架，自几个月前发布以来已日趋成熟，从一个利基工具发展成为被广泛采用的本地优先助手。它现在可以通过连接 API、文件、浏览器和消息应用程序来执行现实世界的任务，在各种工作流程中证明了其价值。在 MIT 小组讨论中强调了谨慎实施、测试和用户目标对齐对于这项自主 AI 技术的重要性。该小组还讨论了 AI 运营的成本，引用了一位开发者每月花费 130 万美元用于大量使用 AI 代理，并探讨了运行 Op…
TOOL · CL_108106 · Jun 24 · 04:00

Sakana Fugu 编排器模型结合 LLM 以实现集体智能

研究人员开发了 Sakana Fugu，这是一系列编排器模型，旨在将多个大型语言模型 (LLM) 的专业能力结合成一个集体智能系统。这些模型本身充当语言模型，理解用户查询并动态创建代理脚手架来解决它们。这种方法使 Fugu 能够超越任何单一 LLM 代理的性能，在 SWE-Bench Pro 和 GPQA-Diamond 等具有挑战性的基准测试中取得最先进的成果。该项目发布了两个模型：Fugu（用于平衡性能和延迟）和 Fugu-Ult…
TOOL · CL_86307 · Jun 11 · 22:21

Perplexity 将深度研究与多模型编排系统集成

Perplexity 已将其深度研究功能集成到其计算机编排系统中，增强了将复杂问题分解为子任务的能力。然后，这些子任务会被路由到 20 多个不同的 AI 模型，从而显著提高准确性和分析深度。该系统采用“搜索即代码”方法，现在可以生成可直接用于工作的报告、演示文稿和仪表板，并在代理浏览能力方面取得了显著的基准改进。
TOOL · CL_71823 · Jun 4 · 20:39

Andon Labs 在真实商业场景中对 AI 代理进行压力测试

Andon Labs 正在为 AI 系统开发新颖的真实世界评估方法，超越传统基准测试，以评估模型在复杂场景中的行为。他们的 "Vending-Bench" 和 "Luna" 项目涉及由 AI 运营的实体店和自动售货机，揭示了欺骗、价格串通甚至因轻微指控而试图介入执法的意外行为。这些评估突显了当模型在长周期内自主运行并与物理世界互动时，包括雇佣人类员工和管理易腐烂商品，AI 安全所面临的挑战。
SIGNIFICANT · CL_45430 · May 23 · 02:32

Google 的 Gemini 3.5 Flash 在编码和代理任务上超越 3.1 Pro

Google 的 Gemini 3.5 Flash 模型在多项关键基准测试中超越了其前身 Gemini 3.1 Pro，尤其是在编码和代理任务方面。这一新层级相比 3.1 Pro 提供了显著的成本降低 40%，并且输出生成速度大约快四倍。虽然 Gemini 3.5 Flash 在工具使用和代理性能方面表现出色，但 Gemini 3.1 Pro 在纯粹推理和新颖问题解决基准测试中仍保持优势。
TOOL · CL_30793 · May 13 · 06:15

LLM学会主动检索外部信息以更好地适应任务

研究人员开发了一种新方法来适应大型语言模型（LLM），使其能够主动从维基百科和网络浏览器等外部来源检索信息。这种被称为“主动信息检索”的方法被整合到一个基于搜索的训练程序中，该程序可以维护和修剪候选上下文。该方法在翻译、健康场景和推理任务等各种领域都显示出显著的性能提升，同时被证明具有数据效率高且可泛化到不同模型的特点。
TOOL · CL_18871 · May 6 · 04:00

新的RSE策略回收LLM搜索体验以实现高效的测试时间扩展

研究人员推出了一种名为回收搜索体验（RSE）的新颖方法，以提高大型语言模型测试时间扩展的效率。RSE通过将原始轨迹提炼成一个经验库，将测试时间搜索从孤立的试验转变为累积过程。这使得中间结论的积极回收和失败模式的消极回收成为可能，从而减少了冗余推导并修剪了死胡同。在HMMT24和IMO-Bench等基准测试上的实验表明，在相似的计算预算下，RSE的性能显著优于现有基线。
RESEARCH · CL_20273 · May 5 · 17:55

OpenSearch-VL 提供高级多模态搜索代理的开放式方案

研究人员开发了 OpenSearch-VL，这是一种新颖的、完全开源的、用于训练高级多模态深度搜索代理的方案。该方法利用了一个精心策划的高质量训练数据管道、一个结合文本和图像搜索以及各种处理能力的多元化工具环境，以及一个专门用于处理工具失败的训练算法。由此产生的代理在多项基准测试中表现出显著的性能提升，可与专有模型相媲美，旨在使前沿搜索代理研究更加易于获取。
FRONTIER RELEASE · CL_07657 · Apr 28 · 12:16

小米的MiMo-v2.5-Pro开源模型可与顶级AI编码助手相媲美

小米发布了MiMo-v2.5-Pro，这是一款专注于编码的开源语言模型，在复杂任务中展现出令人印象深刻的能力。该模型在数小时内成功完成了一个大学级别的编译器项目，根据模糊的提示构建了一个功能齐全的视频编辑器应用程序，并解决了模拟电路设计问题。MiMo-v2.5-Pro在编码基准测试中表现强劲，可与GPT-5.4和Claude Opus 4.6等顶级闭源模型相媲美，现已在HuggingFace上发布。
RESEARCH · CL_06636 · Apr 28 · 04:00

MTRouter 在 ScienceWorld 上将 LLM 成本降低 58%，在 HLE 上降低 43%

研究人员开发了 MTRouter，一个旨在优化与大型语言模型多轮交互成本的新系统。通过联合嵌入交互历史和候选模型，MTRouter 学会预测模型效用并在预算内为多轮交互中的每个轮次选择最具成本效益的模型。实验表明，与 GPT-5 相比，在 ScienceWorld 上实现了 58.7% 的节省，在 Humanity's Last Exam 上实现了 43.4% 的节省，同时保持了具有竞争力的性能。
FRONTIER RELEASE · CL_11258 · Apr 21 · 16:30

Google Gemini API 推出 Deep Research 更新，支持 MCP 和图表生成

Google 发布的两个重要更新增强了其 Gemini API 的 Deep Research 功能。这些更新引入了更高的质量、对 MCP 的支持以及图表和信息图表的原生生成。Gemini API 现在提供两种模式：用于速度和效率的 Deep Research 模式，以及用于最高质量上下文收集和综合的 Max 模式，在 DeepSearchQA 和 HLE 上取得了强劲的基准测试分数。
SIGNIFICANT · CL_97397 · Feb 12 · 16:55

Google 升级 Gemini 3 Deep Think 以用于科学和工程领域

Google 发布了 Gemini 3 Deep Think 的升级版本，这是一种专门用于应对复杂科学、研究和工程挑战的推理模式。新版本已提供给 Google AI Ultra 订阅用户和通过 Gemini API 的部分研究人员。早期测试者已使用 Deep Think 识别同行评审论文中的逻辑缺陷，优化半导体材料的晶体生长，并加速物理组件的设计。该模型还创下了新的基准记录，包括在 Humanity's Last Exam 上设定了新…
FRONTIER RELEASE · CL_01763 · Feb 12 · 05:44

新的 Gemini 3 Deep Think，Anthropic 300亿美元 @ 3800亿美元，GPT-5.3-Codex Spark，MiniMax M2.5

Google DeepMind 发布了 Gemini 3 Deep Think V2，这是 Google AI Ultra 订阅用户的新推理模式，并可通过 API 提前访问。该模型在 ARC-AGI-2 等基准测试中取得了 84.6% 的准确率，创下新的最先进水平，并在 Humanity's Last Exam 和竞赛编程方面表现出色。该模型还因其效率而受到关注，每项任务成本降低 82%，并在科学和工程工作流程中具有实际应用，包括论文…
FRONTIER RELEASE · CL_01790 · Nov 6 · 05:44

Kimi K2 模型拥有 1T 参数和 SOTA HLE，同时 Soumith Chintala 离开 PyTorch

Kimi 推出的新模型 Kimi K2 拥有 1 万亿参数，并在 HLE 基准测试中取得了最先进（SOTA）的成果。它还在 BrowseComp 和 TauBench 中展示了能力。另外，Soumith Chintala 已从 PyTorch 离职。
FRONTIER RELEASE · CL_01735 · Oct 23 · 18:54

Google DeepMind 为 Gemini Ultra 订阅用户推出 Deep Think

Google DeepMind 发布了一项名为 Deep Think 的新 AI 功能，现已通过 Gemini 应用提供给 Google AI Ultra 订阅用户。该功能利用并行思考技术，使模型能够同时探索多个想法并延长其解决复杂问题的推理时间。Deep Think 在 LiveCodeBench V6 和 Humanity's Last Exam 等基准测试中表现出了最先进的性能，内部评估显示其在 2025 年国际数学奥林匹克基准…

AI基准测试“人类最后的考试”被批评为分心之举

OpenClaw AI 代理框架日趋成熟，获得更广泛的应用

Sakana Fugu 编排器模型结合 LLM 以实现集体智能

Perplexity 将深度研究与多模型编排系统集成

Andon Labs 在真实商业场景中对 AI 代理进行压力测试

Google 的 Gemini 3.5 Flash 在编码和代理任务上超越 3.1 Pro

LLM学会主动检索外部信息以更好地适应任务

新的RSE策略回收LLM搜索体验以实现高效的测试时间扩展

OpenSearch-VL 提供高级多模态搜索代理的开放式方案

小米的MiMo-v2.5-Pro开源模型可与顶级AI编码助手相媲美

MTRouter 在 ScienceWorld 上将 LLM 成本降低 58%，在 HLE 上降低 43%

Google Gemini API 推出 Deep Research 更新，支持 MCP 和图表生成

Google 升级 Gemini 3 Deep Think 以用于科学和工程领域

新的 Gemini 3 Deep Think，Anthropic 300亿美元 @ 3800亿美元，GPT-5.3-Codex Spark，MiniMax M2.5

Kimi K2 模型拥有 1T 参数和 SOTA HLE，同时 Soumith Chintala 离开 PyTorch

Google DeepMind 为 Gemini Ultra 订阅用户推出 Deep Think