实体 Claude Opus 4.1

Claude Opus 4.1

PulseAugur coverage of Claude Opus 4.1 — every cluster mentioning Claude Opus 4.1 across labs, papers, and developer communities, ranked by signal.

总计 · 30天

9

90 天内 9

发布 · 30天

0

90 天内 0

论文 · 30天

5

90 天内 5

层级分布 · 90 天

主题

关系

情绪 · 30 天

4 天有情绪数据

最近 · 第 1/1 页 · 共 9 条

COMMENTARY · CL_129702 · Jul 7 · 05:47

AI基准测试图表：如何识别饱和度和污染

一份关于解读AI基准测试图表的指南，特别是针对2026年的模型，强调了常见评估中的局限性和被误导的可能性。SWE-bench Pro等基准测试被引入，以对抗旧指标中出现的数据污染，从而更可靠地评估编码能力。Terminal-Bench 2.1等较新的代理基准测试为实际计算机操作提供了代理，尽管分数可能因使用的测试工具而异。对于GPQA Diamond等高度饱和的基准测试，微小的分数差异在统计学上没有意义，这表明应关注较新、不那么饱和的…
TOOL · CL_123809 · Jul 3 · 10:17

Microsoft Foundry 的模型路由器增加了对 GPT-5.5 的支持，但成本很高

Microsoft Foundry 的模型路由器现在支持 GPT-5.5，允许用户根据任务复杂性和成本动态选择 AI 模型。该路由器提供三种模式：平衡、成本和质量，每种模式在模型性能和费用之间都有不同的权衡。然而，作者发现 GPT-5.5 对于开发任务来说价格过高，几小时的使用成本就超过了 1,000 新台币，而模型路由器本身就增加了总成本的 10% 以上。
TOOL · CL_102169 · Jun 21 · 00:00

Claude Opus 4.7 自主掌握机器人任务，速度提升 20 倍

Anthropic 的 Frontier Red Team 重新审视了 Project Fetch，这是一项测试 AI 在机器人任务中辅助能力的项目。在第二阶段，Claude Opus 4.7 自主运行，其完成任务的速度远超使用早期模型或无 AI 辅助的人类团队。尽管 Opus 4.7 展示了显著的速度提升，但在精确的物理操作方面仍有困难，这表明大型语言模型尚未完全掌握复杂的机器人技术。
TOOL · CL_106104 · Jun 19 · 21:47

Anthropic 的 Claude Opus 4.7 在自主机器人任务中展现快速进展

Anthropic 的最新 Project Fetch 更新显示，自主运行的 Claude Opus 4.7 完成机器人任务的速度比之前实验中的顶尖人类团队快约 20 倍。虽然这并非机器人领域的完整解决方案，但它展示了通用模型通过 API 和传感器反馈理解和控制物理工具的能力取得了重大进展。这一发展凸显了未来在物理世界中运行的 AI 智能体需要增强安全协议、模拟环境和智能体可读硬件接口。
RESEARCH · CL_100586 · Jun 19 · 11:07

Anthropic 的 Claude Opus 4.7 在新实验中使机器人运行速度提高 20 倍

Anthropic 的最新实验“Project Fetch Phase Two”表明，Claude Opus 4.7 能够自主操作机器人四足动物，比人类团队完成任务的速度快得多。在一个有限的测试环境中，该模型执行任务的速度比之前实验中最快的人类团队大约快 20 倍。尽管该模型在精确的物理操作方面仍有困难，但这一进展表明通用模型与物理工具交互的能力正在迅速进步，预示着物理人工智能代理的发展可能会加速。
TOOL · CL_79961 · Jun 9 · 04:00

新的PLAGUE框架提高了LLM越狱成功率

研究人员开发了PLAGUE，一个用于针对大型语言模型创建多轮越狱攻击的新框架。该框架模仿终身学习代理，将攻击分解为三个阶段：预热、规划和完成。PLAGUE已显示出显著的成功，在OpenAI的o3和Anthropic的Claude Opus 4.1等模型上的攻击成功率提高了30%以上，这些模型以其对这类漏洞的抵抗力而闻名。
TOOL · CL_65415 · Jun 2 · 04:00

新框架揭示医疗大语言模型关键安全漏洞

研究人员开发了一个新的框架，用于评估医疗大语言模型的安全性、鲁棒性和公平性。该框架跨越九个领域，使用了690个基于临床的场景，结合了对抗性转换和一个包含大语言模型辅助和人工验证的七维度评分标准。研究结果表明，尽管X-BAI、GPT-5和Claude Opus 4.1等顶级模型平均表现良好，但在特定的安全敏感场景中仍可能出现关键性故障，这凸显了聚合准确性的局限性以及混合评估方法的必要性。
TOOL · CL_38915 · May 19 · 08:58

CodePercept 利用代码而非仅靠推理来提升 LLM 的视觉感知能力

上海交通大学和 Qwen 团队的研究人员推出了一种名为 CodePercept 的新方法，旨在增强大型语言模型在 STEM 任务中的视觉感知能力。他们的研究表明，提升视觉感知能力，而非仅仅是推理能力，是模型解决科学和数学问题的关键瓶颈。CodePercept 利用代码作为精确的视觉理解语言，使模型能够生成准确表示图像内容的、可执行的代码，从而克服自然语言描述的固有歧义。
TOOL · CL_17686 · Oct 28 · 14:13

LLM在“传递黄油”机器人测试中失败，得分远低于人类表现

一项名为Butter-Bench的新评估显示，当前最先进的大型语言模型在控制机器人执行实际任务方面存在显著困难。在旨在评估它们执行诸如传递黄油等家务的能力的测试中，表现最好的LLM仅达到40%的完成率，远低于人类95%的成功率。Gemini 2.5 Pro和Claude Opus 4.1等模型在空间意识和任务执行方面显示出局限性，突显了LLM推理能力与现实世界机器人应用之间的差距。