实体 GPT-5.4

GPT-5.4

PulseAugur coverage of GPT-5.4 — every cluster mentioning GPT-5.4 across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

201

90 天内 201

发布 · 30天

90 天内 1

论文 · 30天

113

90 天内 113

层级分布 · 90 天

frontier release 3
significant 8
research 69
tool 101
commentary 20

主题

产品 121
论文 113
模型发布 102
安全 37
基础设施 26
其他 26
观点 5
政策 3

关系

developed by OpenAI 100%
subsidiary of OpenAI 100%
competes with Kimi K2.6 90%
used by codex 90%
instance of large-language models 90%
developed by Microsoft Research 90%
used by Maria 90%
competes with Harness-1 90%
uses Molecule.one 90%
competes with Claude Sonnet 4.6 80%
competes with DeepSeek 80%
partners with Molecule.one 80%

时间线

2026-06-19 research_milestone OpenAI and Molecule.one's GPT-5.4 system demonstrated near-autonomous improvement of a drug synthesis reaction. 来源
2026-06-17 research_milestone GPT-5.4 assisted in a medicinal chemistry project, improving yields for key chemical reactions. 来源
2026-05-26 research_milestone An evaluation found GPT-5.4 to be the only model that consistently improved code efficiency when prompted. 来源

情绪 · 30 天

25 天有情绪数据

最近 · 第 1/10 页 · 共 200 条

TOOL · CL_132474 · Jul 8 · 16:39

Google 的 Android Bench 新增 LLM；Fable 5 领先，Gemini 落后

Google 更新了其 Android Bench 基准测试工具，用于评估大型语言模型（LLM）在 Android 开发任务中的表现。更新后的排行榜包括八个新模型，例如 Claude Fable 5、Claude Sonnet 5 和 Qwen 3.7 Max。值得注意的是，Claude Fable 5 在准确性方面以 84.5% 的准确率领先，而 Google 自家的 Gemini 3.1 Pro 排名第五。该基准测试还突显了模型之…
RESEARCH · CL_133224 · Jul 8 · 11:28

新型“InfraQR”攻击目标为红外视觉语言模型

研究人员开发了InfraQR，一种利用红外视觉语言模型漏洞的新型攻击方法。这种QR码启发式结构化Patch攻击将扰动放置在图像边界处，显著降低了OpenAI CLIP等模型的性能。InfraQR生成的对抗性图像还会影响字幕生成和视觉问答等下游任务，表明红外视觉语言系统存在广泛的漏洞。
RESEARCH · CL_133140 · Jul 8 · 09:17

新方法通过模拟部署预测 LLM 安全性

研究人员开发了一种新颖的方法，通过模拟部署场景来预测大型语言模型 (LLM) 在公开发布前的安全性。该技术涉及使用先前部署中经过身份识别的对话前缀，用候选模型重新生成响应，从而能够进行审计和评估不当行为的发生率。该研究评估了这种部署模拟在四次 GPT-5 系列部署中的应用，发现它比传统评估更具信息量，并且更接近生产流量。该方法还有望使外部研究人员能够使用公共数据集进行类似的评估。
TOOL · CL_130685 · Jul 7 · 19:00

Microsoft Foundry 集成了 GPT-5.6 和 GPT-5.4 以实现高级 AI 代理功能

Microsoft 已在其 Microsoft Foundry 平台中普遍提供了 GPT-5.6，为代理时代增强了功能。此次发布包括 Foundry Agent Service 中的托管代理以及通过亚太数据区进行访问。另外，GPT-5.4 也可在 Microsoft Foundry 中使用，为 AI 应用程序开发和管理提供改进的输出质量、多模态支持、高级安全功能和企业工具。
TOOL · CL_128889 · Jul 7 · 04:00

新的基准测试评估LLM在量子代码版本兼容性

一项名为quantum-api-drift的新基准测试已被开发出来，用于评估大型语言模型生成与特定软件开发工具包（SDK）版本兼容的量子代码的能力。该基准测试使用了Qiskit在v0.43、v1.3和v2.0版本上进行了测试，对17个模型进行了50项任务的评估。Claude Opus 4.7在v0.43和v2.0上表现最佳，而Grok 4.20在v1.3上表现出色。研究发现，尽管文档指导的修复有所帮助，但API漂移仍然是LLM生成的量…
TOOL · CL_128757 · Jul 7 · 04:00

新基准测试 LLM 在叙事性违规攻击下的表现

一项名为 CoC-Seduce 的新基准已被开发出来，用于测试大型语言模型在面对对抗性攻击时的规则遵守情况。这些被称为“修辞注入”的攻击利用叙事框架和伪逻辑推理来绕过模型的裁决逻辑。对 GPT-5.4、Claude Sonnet 4.6 和 Gemini 3.5 Flash 等模型的测试表明，模型规模或显式推理机制都不能保证鲁棒性，其中伪逻辑是最有效的攻击向量。
COMMENTARY · CL_127568 · Jul 6 · 13:44

AI模型在基准测试和自由职业任务中展现进步，而GPU部署滞后

新一代GPU即将问世，尽管Grace-Blackwell GPU自2024年12月起已开始发货，但仍有超过95%的GPU尚未部署。在AI进展方面，一个拥有350亿参数的模型在某些长周期基准测试中表现出可与万亿参数模型相媲美的性能，并且GPT-5.4协助Molecule.one进行了10,080次反应，在Chan-Lam过程中产量提高了约50%。此外，根据Remote Labor Index的数据，AI代理目前已能以媲美人类专业人士的质…
COMMENTARY · CL_126385 · Jul 5 · 14:17

LLM API 定价成本差异高达600倍，模型选择成为关键

LLM API 的定价在不同模型之间出现了巨大的成本差异，价格从每百万输入 token 0.075 美元的经济型选项到每百万 token 30 美元的顶级模型不等。这种高达 600 倍的显著差异意味着，模型选择现在比基础设施决策更成为一个关键的成本节约因素。文章建议根据质量需求对工作负载进行分类，并将其路由到最具成本效益的模型层级，强调鉴于模型命名和定价的快速变化，这一策略至关重要。
TOOL · CL_124127 · Jul 3 · 14:38

11个LLM在代码重构和提案评估方面的评估

一项实验评估了十一个大型语言模型重构LangGraph代理中复杂“神节点”的能力。模型被要求提出解决方案来梳理该节点的逻辑，然后互相评估彼此的提案。作者采用了三种不同的方法来确定哪些模型作为代码生成器和评估者最值得信赖。
COMMENTARY · CL_124065 · Jul 3 · 13:35

AI 代理在使用 GPT-5.4 和 Claude Haiku 等顶级模型时达到使用限制

用户在使用 AI 代理管道时遇到了限制，尤其是在使用 Hermes、GPT-5.4 和 Claude Haiku 等模型时。这些模型在开始任务时会迅速耗尽其使用额度或处理能力，迫使回退到更慢或效果较差的替代方案。使用 Claude Sonnet 5 进行的测试也显示了使用限制和显著的重置等待时间。
TOOL · CL_123809 · Jul 3 · 10:17

Microsoft Foundry 的模型路由器增加了对 GPT-5.5 的支持，但成本很高

Microsoft Foundry 的模型路由器现在支持 GPT-5.5，允许用户根据任务复杂性和成本动态选择 AI 模型。该路由器提供三种模式：平衡、成本和质量，每种模式在模型性能和费用之间都有不同的权衡。然而，作者发现 GPT-5.5 对于开发任务来说价格过高，几小时的使用成本就超过了 1,000 新台币，而模型路由器本身就增加了总成本的 10% 以上。
TOOL · CL_123585 · Jul 3 · 07:38

指南详述 Claude Code 到 Codex 的迁移，突出功能差距

一份指南详细介绍了将配置从 Claude Code 迁移到新工具 Codex 的过程。迁移主要是一项重命名和重新格式化的任务，Codex 为大多数设置提供了一键式导入器。然而，Claude Code 中的某些功能，如每个命令的权限允许列表、ConfigChangehooks 和输出样式，在 Codex 中没有直接对应项，需要变通方法或决定继续使用旧工具。该指南建议迁移以实现面向任务的工作流和更严格的沙盒环境，同时建议保留 Claude…
TOOL · CL_122978 · Jul 3 · 04:00

Mastermind框架提升AI代理漏洞复现成功率

研究人员开发了一个名为Mastermind的新框架，以提高AI代理在复杂软件工程任务（特别是漏洞复现）中的性能。该框架将可迁移策略的学习与特定任务的执行分离开来，允许一个可训练的规划器通过监督微调和强化学习来优化可重用策略。在测试GPT-5.5、GPT-5.4和GLM-5.1等模型时，Mastermind显著提高了它们识别和复现软件漏洞的成功率。
TOOL · CL_122005 · Jul 2 · 12:19

开发者构建 AI 编码代理控制平面，性能超越 GPT-5.4

一位开发者意外地创建了一个 AI 编码代理的控制平面，旨在管理其成本并确保它们遵守特定的边界和验证规则。这个系统被命名为 AADLC，并发展出包含治理层 (cARL)、成本可见性工具 (CopeLimit)、优化层 (Headroom) 和未来的资源洞察引擎 (cARRIE)。对 Anthropic 的 Sonnet 4.6 和 OpenAI 的 GPT-5.4 进行的基准测试显示，在信用额度使用量和执行时间方面存在显著差异，这凸显了…
TOOL · CL_123031 · Jul 1 · 19:29

新方法MultAttnAttrib提高了多模态归因的准确性

研究人员推出了一种新颖的方法MultAttnAttrib，用于在多模态问答系统中生成归因，而无需额外训练。该方法利用模型的预填充通道、特定的注意力头和校准的阈值来精确定位文档中的证据。为了评估其有效性，创建了一个名为MultAttrEval的新基准数据集，其中包含基于多模态来源的答案的细粒度归因。MultAttnAttrib在现有归因方法（包括基于提示的方法）方面表现出优越的性能，甚至能与GPT 5.4等先进模型相媲美，同时显著降低了推理延迟。
TOOL · CL_121105 · Jul 1 · 14:04

大型语言模型在零样本测试中难以识别细粒度情感

一项新的研究论文评估了三种领先的大型语言模型在零样本情感识别方面的能力：Claude Sonnet 4.6、ChatGPT (GPT-5.4) 和 Gemini 2.5-Flash。研究发现，Gemini 的准确率最高，达到 39.9%，GPT-5.4 和 Claude 紧随其后。然而，所有模型在处理爱、困惑和羞耻等具体情感时都遇到了困难，McNemar 检验表明它们在性能上没有统计学上的显著差异。这项研究强调了这些前沿人工智能系统在…
SIGNIFICANT · CL_119747 · Jul 1 · 03:11

Anthropic的Fable 5和Mythos 5模型在解除出口管制后获准全球发布

Anthropic宣布，此前因担忧被用于识别和利用软件漏洞的潜在滥用而于6月12日施加的美国出口管制已解除，涉及其Claude Fable 5和Claude Mythos 5模型。Fable 5将于7月1日起在全球范围内提供，而Mythos 5的访问权限将扩展到指定的美国组织。Anthropic还与行业合作伙伴和美国政府合作，开发一个用于评估和缓解AI模型“越狱”的共享框架。
TOOL · CL_127203 · Jul 1 · 00:00

新方法MultAttnAttrib改进了长文档中的多模态归因

研究人员推出了一种新颖的、无需训练的多模态归因方法MultAttnAttrib，用于长文档问答。该技术利用注意力头和校准阈值来识别文档中的证据，在准确性和效率方面优于现有方法。为了支持这项研究，还开发了一个名为MultAttrEval的新基准数据集，其中包含多模态源文档的细粒度归因。MultAttnAttrib展示了具有竞争力的性能，可与GPT-5.4等模型相媲美，同时显著降低了推理延迟。
TOOL · CL_121140 · Jun 30 · 20:18

新框架对大型语言模型在阿拉伯文化知识方面的表现进行基准测试

一篇新的研究论文介绍了一个用于评估大型语言模型（LLMs）在阿拉伯文化和社会语言学知识方面表现的框架，解决了人工专家评估成本高昂和复杂的问题。该研究开发了103对提示-评分标准，针对埃及和伊拉克阿拉伯语，由母语者评分。在对三个前沿LLMs进行测试时，GPT-5.4被发现是最可靠的自动评估者，尽管所有评估者都表现出宽容。研究还强调，模型在埃及语提示上的表现优于伊拉克语提示，并且隐性文化推理仍然是LLMs面临的重大挑战。
RESEARCH · CL_117606 · Jun 30 · 04:00

新研究强调了 AI 代理中的关键安全漏洞，并提出了新的基准和控制机制

两篇新研究论文探讨了 AI 代理的安全漏洞，特别是那些对系统和工具有持久访问权限的代理。第一篇论文《从计算机系统视角理解和评估类似爪的代理安全》介绍了 SafeClawArena，这是一个用于测试四个攻击面上的对抗性任务的基准。研究发现恶意插件的成功率为 100%，并且虽然 SeClaw 等一些代理降低了 GPT-5.4 和 Claude Opus-4.6 等模型的攻击成功率，但 Claude Opus-4.6 在各个平台上始终保持较…

Google 的 Android Bench 新增 LLM；Fable 5 领先，Gemini 落后

新型“InfraQR”攻击目标为红外视觉语言模型

新方法通过模拟部署预测 LLM 安全性

Microsoft Foundry 集成了 GPT-5.6 和 GPT-5.4 以实现高级 AI 代理功能

新的基准测试评估LLM在量子代码版本兼容性

新基准测试 LLM 在叙事性违规攻击下的表现

AI模型在基准测试和自由职业任务中展现进步，而GPU部署滞后

LLM API 定价成本差异高达600倍，模型选择成为关键

11个LLM在代码重构和提案评估方面的评估

AI 代理在使用 GPT-5.4 和 Claude Haiku 等顶级模型时达到使用限制

Microsoft Foundry 的模型路由器增加了对 GPT-5.5 的支持，但成本很高

指南详述 Claude Code 到 Codex 的迁移，突出功能差距

Mastermind框架提升AI代理漏洞复现成功率

开发者构建 AI 编码代理控制平面，性能超越 GPT-5.4

新方法MultAttnAttrib提高了多模态归因的准确性

大型语言模型在零样本测试中难以识别细粒度情感

Anthropic的Fable 5和Mythos 5模型在解除出口管制后获准全球发布

新方法MultAttnAttrib改进了长文档中的多模态归因

新框架对大型语言模型在阿拉伯文化知识方面的表现进行基准测试

新研究强调了 AI 代理中的关键安全漏洞，并提出了新的基准和控制机制