实体 GPT-5.5 Pro

GPT-5.5 Pro

PulseAugur coverage of GPT-5.5 Pro — every cluster mentioning GPT-5.5 Pro across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 21

发布 · 30天

90 天内 0

论文 · 30天

90 天内 9

层级分布 · 90 天

significant 2
research 5
tool 11
commentary 3

主题

模型发布 15
产品 15
论文 9
基础设施 2
其他 2
融资 1
观点 1

关系

used by Ethan Mollick 90%
competes with GPT-5.4 Pro 70%
employs Ethan Mollick 50%

时间线

2026-05-11 research_milestone GPT-5.5 Pro independently solved open problems in number theory and generated research preprints. 来源

情绪 · 30 天

4 天有情绪数据

最近 · 第 1/2 页 · 共 21 条

COMMENTARY · CL_126385 · Jul 5 · 14:17

LLM API 定价成本差异高达600倍，模型选择成为关键

LLM API 的定价在不同模型之间出现了巨大的成本差异，价格从每百万输入 token 0.075 美元的经济型选项到每百万 token 30 美元的顶级模型不等。这种高达 600 倍的显著差异意味着，模型选择现在比基础设施决策更成为一个关键的成本节约因素。文章建议根据质量需求对工作负载进行分类，并将其路由到最具成本效益的模型层级，强调鉴于模型命名和定价的快速变化，这一策略至关重要。
TOOL · CL_106333 · Jun 21 · 01:36

GPT-5.5 Pro通过新数据和论点增强学术论文

Ethan Mollick分享了使用GPT-5.5 Pro分析过往学术论文的经历。该AI模型能够识别新数据、进行分析、创建可复现文件，甚至以复杂的方式扩展论文的核心论点。这种互动凸显了人工智能与学术工作之间不断发展的关系。
COMMENTARY · CL_92950 · Jun 16 · 02:29

Satya Nadella 倡导 AI "前沿生态系统"而非模型

微软 CEO Satya Nadella 阐述了新的 AI 战略，该战略侧重于构建“前沿生态系统”，而非仅仅关注前沿模型。这种方法强调创建“学习循环”，其中人力资本和代币资本会增值，从而使组织能够拥有其机构知识。该战略旨在确保价值在各行业和国家广泛流动，将重点从选择最佳模型转移到围绕它们构建强大的系统。这一愿景在他的第一篇 X 文章中得到了详细阐述，并与 Microsoft Build 此前的讨论相符。
SIGNIFICANT · CL_82843 · Jun 10 · 07:06

Claude Fable 5 在 AI 编码基准测试中领先，超越 GPT-5.5

Anthropic 的 Claude Fable 5 已成为领先的 AI 模型，在编码基准测试中显著优于 OpenAI 的 GPT-5.5 和 Google 的 Gemini 3.1 Pro 等竞争对手。Fable 5 在 SWE-Bench Pro 上取得了 80.3% 的成功率，远超 GPT-5.5 的 58.6% 和 Gemini 的 54.2%。虽然 Fable 5 的定价高于标准的 GPT-5.5，但对于高性能编码任务而言，…
RESEARCH · CL_82034 · Jun 9 · 12:50

AI代理Moonshine使用GPT-5.5生成数学猜想

一个名为Moonshine的新自主代理已被开发出来，用于生成数学猜想并取得进展。Moonshine通过提炼新概念和构建理论框架来探索复杂问题。在一个实例中，它提出了神经雅可比猜想，并在GPT-5.5-pro和DeepSeek-V4-pro等先进AI模型的帮助下，为该猜想的一个特定案例开发了证明。
RESEARCH · CL_77501 · Jun 8 · 06:05

DeepSeek 成本低于 GPT-5.5 Pro，微软调整 Copilot 定价

DeepSeek 的新模型相比 GPT-5.5 Pro 提供了显著更低的每任务成本，DeepSeek 收费仅一美元，而 GPT-5.5 Pro 收费 22 美元。此次定价调整之际，微软正将其 Copilot 服务转向按 token 计费模式。此外，近期研究表明，AI 编码智能体将其大部分处理时间花在审查循环中。
RESEARCH · CL_77001 · Jun 8 · 01:39

DeepSeek V4 Pro 在精确度测试中表现优于 GPT-5.5 Pro

据报道，DeepSeek 的 V4 Pro 模型在精确度基准测试中已超越 OpenAI 的 GPT-5.5 Pro。这一成就标志着 DeepSeek 在竞争激烈的大型语言模型领域迈出了重要一步。性能的提升使 DeepSeek 成为与成熟模型相抗衡的有力竞争者。
TOOL · CL_76151 · Jun 7 · 13:49

GLM 4.7 生成图像的成本仅为 GPT-5.5 Pro 的一小部分

在 Mastodon 上分享的一项比较显示，GLM 4.7 仅用 0.0032 美元就生成了一张独角兽图像。据报道，这一成本比使用 GPT-5.5 Pro 的最昂贵尝试便宜 448 倍。GLM 4.7 的图像生成质量也因令人印象深刻而受到关注，这使其成为低成本图像生成模型和工作流程的值得注意的发展。
TOOL · CL_57827 · May 28 · 20:40

Claude Opus 4.8 起草学术论文，GPT-5.5 Pro 发现错误

Ethan Mollick 利用 Anthropic 的 Claude 3 Opus 4.8 及其 Code 环境，从大量已去标识化的研究文件数据集中生成了一篇学术论文。随后，他使用 OpenAI 的 GPT-5.5 Pro 作为审稿人，GPT-5.5 Pro 发现了一个错误和几个小问题，Opus 随后进行了修正。
COMMENTARY · CL_48081 · May 24 · 00:17

Ethan Mollick 指出 GPT-5.5 Pro 在事实核查方面表现出色

Ethan Mollick 发现 GPT-5.5 Pro 是一个有效的工具，可以对大量文本进行事实核查，准确地识别章节中的关键参考文献。他指出，该模型倾向于提供细致入微的响应，常常指出细枝末节，这可能是一个小缺点。尽管如此，该应用似乎是一个强大的信息验证助手。
TOOL · CL_48093 · May 17 · 23:23

GPT-5.5 Pro 在学术挑战中尝试生成幽默内容

人工智能研究员 Ethan Mollick 给 GPT-5.5 Pro 布置了一项独特的学术挑战：分析词对中的幽默感并生成自己有趣的组合。该模型成功生成了诸如“scrotum snorkel”（阴囊潜水镜）和“waffle coffin”（华夫饼棺材）之类的短语。这一练习突显了该模型在超越简单文本生成之外，参与细微语言任务的能力。
TOOL · CL_29136 · May 12 · 22:37

小型模型在代理编码基准测试中超越前沿AI

一项最近的代理编码基准测试显示，更小、更高效的模型在性能上超越了更大、更前沿的模型。SmolLM3 3B 模型能够在笔记本电脑上运行，得分达到 93.3，显著超过了 Grok 4.20 和 DeepSeek V4 Pro 等模型。这表明模型大小可能不是代理编码能力的决定性因素，挑战了之前关于高级任务必须拥有海量参数的假设。
TOOL · CL_27087 · May 11 · 18:46

十款新大型语言模型（包括DeepSeek V4, Grok 4.20, GPT-5.5 Pro）将接受基准测试

一项新的基准测试将评估十款此前未经验证的大型语言模型，包括DeepSeek V4 Pro、Grok 4.20和GPT-5.5 Pro。测试将使用一致的方法论和评分系统，专注于实际的代理编码任务。结果将在基准测试运行后立即公布。
SIGNIFICANT · CL_26142 · May 11 · 07:50

GPT-5.5 Pro 解决数论问题，生成研究论文

OpenAI 的 GPT-5.5 Pro 模型已独立解决了数论中的开放性问题，在无需人类协助的情况下生成了完整的学术预印本。一位著名数学家称其成果具有扎实的博士论文质量。这一发展预示着科学研究可能发生范式转变，人工智能将承担复杂的理论任务。
RESEARCH · CL_23974 · May 9 · 07:12

谷歌DeepMind AI协助数学家，在FrontierMath基准测试中名列前茅

谷歌DeepMind发布了一个名为“AI Co-Mathematician”的AI系统，旨在与人类数学家合作解决复杂问题。该系统基于Gemini 3.1 Pro构建，在极具挑战性的FrontierMath Tier 4基准测试中取得了48%的新SOTA分数，显著优于GPT-5.5 Pro等现有模型。该AI作为一个异步工作空间，配备一个协调代理，负责分解任务、管理并行研究流，并持久存储失败的假设，这与软件开发中的工作流程相似。
RESEARCH · CL_20620 · May 5 · 17:58

研究发现：AI研究落后于前沿模型，能力被误报

一项新论文揭示了学术研究中评估的AI模型能力与当时实际可用的前沿模型之间存在显著差距。研究发现，中位数研究论文评估的模型比当前最先进的模型落后约10.85 ECI点，且这一差距每年都在扩大。这种“发表诱导差距”归因于同行评审延迟之外的因素，其中很大一部分源于使用了较旧或能力较弱的模型以及评估配置披露不足。
FRONTIER RELEASE · CL_09563 · Apr 29 · 22:26

GPT-5.5 Pro 在基准测试中表现出色；Microsoft Playwright 助力网络代理

据报道，OpenAI 的 GPT-5.5 Pro 在 Epoch 基准测试中取得了显著的进步，其基础版本超越了之前的 Pro 模型。这表明 OpenAI 的最新迭代在效率方面有了实质性的改进。此外，一款名为 CCmeter 的新开源工具已发布，用于分析 Claude Code 的会话日志，帮助用户识别节省成本的模式并模拟模型切换。另外，Microsoft 开发了一个用于 Playwright 的 MCP 服务器，使 AI 代理能够通过…
TOOL · CL_06055 · Apr 28 · 02:01

GPT-5.5 Pro 在2小时编码会话中展现出持续的调试性能

一位用户报告称，GPT-5.5 Pro 在为期两小时的调试会话中表现出持续的性能。这表明该模型可能在长时间编码任务中提供更高的可靠性。会话的具体细节和错误的性质没有详细说明。
TOOL · CL_05966 · Apr 28 · 00:25

OpenAI的GPT-5.5 Pro达到145视觉智商，接近门萨门槛

据报道，OpenAI已开发出原型智能手机，计划于2028年量产。该设备预计将具备先进的AI功能，其中GPT-5.5 Pro达到了145的视觉智商，可能达到门萨的入会门槛。这一发展表明AI在消费硬件中的集成取得了重大飞跃。
TOOL · CL_05969 · Apr 28 · 00:11

OpenAI发布GPT-5.5 Pro，视觉智商达145，接近门萨水平

据报道，OpenAI已研发出一款智能手机，计划于2028年量产。该设备据传将搭载GPT-5.5 Pro，一款声称视觉智商高达145的AI模型，可能达到门萨水平。这一进展表明OpenAI正大力进军消费硬件和先进AI集成领域。

LLM API 定价成本差异高达600倍，模型选择成为关键

GPT-5.5 Pro通过新数据和论点增强学术论文

Satya Nadella 倡导 AI "前沿生态系统"而非模型

Claude Fable 5 在 AI 编码基准测试中领先，超越 GPT-5.5

AI代理Moonshine使用GPT-5.5生成数学猜想

DeepSeek 成本低于 GPT-5.5 Pro，微软调整 Copilot 定价

DeepSeek V4 Pro 在精确度测试中表现优于 GPT-5.5 Pro

GLM 4.7 生成图像的成本仅为 GPT-5.5 Pro 的一小部分

Claude Opus 4.8 起草学术论文，GPT-5.5 Pro 发现错误

Ethan Mollick 指出 GPT-5.5 Pro 在事实核查方面表现出色

GPT-5.5 Pro 在学术挑战中尝试生成幽默内容

小型模型在代理编码基准测试中超越前沿AI

十款新大型语言模型（包括DeepSeek V4, Grok 4.20, GPT-5.5 Pro）将接受基准测试

GPT-5.5 Pro 解决数论问题，生成研究论文

谷歌DeepMind AI协助数学家，在FrontierMath基准测试中名列前茅

研究发现：AI研究落后于前沿模型，能力被误报

GPT-5.5 Pro 在基准测试中表现出色；Microsoft Playwright 助力网络代理

GPT-5.5 Pro 在2小时编码会话中展现出持续的调试性能

OpenAI的GPT-5.5 Pro达到145视觉智商，接近门萨门槛

OpenAI发布GPT-5.5 Pro，视觉智商达145，接近门萨水平