PulseAugur
实时 09:07:16
实体 Claude Opus 4.1

Claude Opus 4.1

PulseAugur coverage of Claude Opus 4.1 — every cluster mentioning Claude Opus 4.1 across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
关系
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 2 条
  1. TOOL · CL_38915 ·

    CodePercept boosts LLM visual perception using code, not just reasoning

    Researchers from Shanghai Jiao Tong University and the Qwen team have introduced CodePercept, a novel approach to enhance large language models' visual perception capabilities, particularly for STEM tasks. Their researc…

  2. TOOL · CL_17686 ·

    LLM在“传递黄油”机器人测试中失败,得分远低于人类表现

    一项名为Butter-Bench的新评估显示,当前最先进的大型语言模型在控制机器人执行实际任务方面存在显著困难。在旨在评估它们执行诸如传递黄油等家务的能力的测试中,表现最好的LLM仅达到40%的完成率,远低于人类95%的成功率。Gemini 2.5 Pro和Claude Opus 4.1等模型在空间意识和任务执行方面显示出局限性,突显了LLM推理能力与现实世界机器人应用之间的差距。