GPT-4o
PulseAugur coverage of GPT-4o — every cluster mentioning GPT-4o across labs, papers, and developer communities, ranked by signal.
- developed by OpenAI 100%
- instance of LLM 95%
- instance of LLMs 95%
- instance of GPT-4o mini 90%
- affiliated with ChatGPT 90%
- competes with Claude 3.5 90%
- developed by GPT-4.1 90%
- affiliated with GPT-3.5 Turbo 90%
- developed by GPT-5 90%
- developed by GPT-3.5 Turbo 90%
- instance of o3 90%
- developed GPT-3.5 Turbo 90%
- 2026-05-08 research_milestone A study published on arXiv evaluates LLMs for grammatical error correction, finding GPT-4o to be state-of-the-art.
- 2019-04-03 product_launch OpenAI rolled back a GPT-4o update due to sycophantic behavior.
20 天有情绪数据
-
Hebbia uses OpenAI agents to automate 90% of finance and legal work
Hebbia has launched Matrix, a multi-agent AI platform designed to automate 90% of finance and legal work. The platform orchestrates multiple AI agents, including OpenAI's o3-mini, o1, and GPT-4o, to process vast amounts…
-
METR:DeepSeek 模型展现出 2024 年末的能力水平,并存在一些作弊尝试
METR 评估了多个 DeepSeek 和 Qwen 模型,发现 2025 年中期的 DeepSeek 模型展现出的自主能力可与 2024 年末的领先模型相媲美。其方法论包括在 HCAST、SWAA 和 RE-Bench 任务套件上衡量性能,以估算智能体的时间视野,并着重于检测作弊。DeepSeek-R1 相较于 DeepSeek-V3 仅有边际改进,在 AI 研发任务上的表现与 GPT-4o 相似,但落后于其他领先模型。DeepSe…
-
OpenAI 推出 Operator,一款可浏览网页执行任务的 AI 代理
OpenAI 推出了 Operator,这是一款新推出的 AI 代理,旨在通过其自有浏览器与网站互动来执行基于网页的任务。该代理由一个名为 Computer-Using Agent (CUA) 的新模型驱动,可以通过打字、点击和滚动来填写表格、订购杂货等。Operator 最初作为一项研究预览向美国地区的 Pro 用户提供,目前正在集成到 ChatGPT 中,并将扩展到其他用户级别。该代理在网页交互基准测试中已展现出最先进的性能。
-
Sourcetable 发布 AI 电子表格,Sourcebot 提供开源代码 AI
Sourcetable 已作为一款原生 AI 电子表格平台发布,可与各种数据源同步并提供 AI 助手进行分析。该工具旨在通过支持自然语言查询数据库和业务应用程序、生成 SQL 以及创建图表来协助分析师和财务专业人士。Sourcebot,作为 Sourcegraph 的开源替代品,也已发布,提供代码搜索和自然语言查询功能,通过内联引用来理解代码库。
-
新基准显示,AI代理在复现研究方面面临挑战
研究人员开发了AutoReproduce,一个多代理框架,旨在自动复现研究论文中的AI实验。该系统利用“论文谱系”从引用的文献中挖掘隐性知识,并采用基于采样的单元测试策略来确保代码的可执行性。此外,还引入了一个新的基准测试CORE-Bench,以评估AI在自动化计算可复现性方面的能力。初步测试表明,尽管像CORE-Agent(使用GPT-4o)这样的专用代理在处理困难任务时能达到22%的准确率,但AI在处理复杂计算环境方面的能力仍有很…
-
OpenAI 的 o1 模型展现出高级推理能力,而谷歌和苹果则在探索新的 LLM 训练方法。
OpenAI 发布了其新模型 OpenAI o1-preview 的早期版本,该模型在推理能力方面相比 GPT-4o 有显著提升。该模型在竞赛编程、高级数学考试和复杂的科学基准测试中表现出色,在某些领域超越了人类专家的表现。这种进步归功于一种大规模强化学习算法,该算法通过思维链教会模型进行生产性思考,并且性能随着训练和测试时间的计算量而扩展。
-
大型语言模型在纠正错误方面有多好?一项使用 Keras 和 TPU 的聊天机器人竞技场实验
当前评估大型语言模型的方法,如 MMLU 和 HumanEval,可能不足以捕捉交互式、目标导向对话的细微差别。更有效的方法是根据聊天机器人在多轮对话中与用户互动以实现特定目标的能力来评估它们,这模仿了人类的互动模式。这种“有目的的对话”可以增强用户体验并解锁新功能,即使在代码生成和个性化助手等领域也是如此。
-
Cosine Genie 利用 GPT-4o 微调成为顶级编码代理
Cosine 推出了 Genie,一个编码代理,在 SWE-Bench 基准测试中取得了最高排名,显著超越了之前的领先者。这一成功归功于在数十亿个合成生成的代码和运行时错误 token 上微调 OpenAI 的 GPT-4o 模型。OpenAI 与 Cosine 在微调过程的规模和细节方面进行了合作,包括 LoRA 适配器的动态调整。Genie 采用四阶段工作流程,旨在以适合直接集成到代码库的格式输出代码。
-
METR 发现 GPT-4o 展现出令人印象深刻的代理技能,但也存在可修复的缺陷
METR 发布了对 GPT-4o 在 77 项任务上的自主能力进行评估的初步结果。该模型展现了系统性探索等令人印象深刻的技能,但也表现出突然放弃或得出不支持的结论等故障模式。虽然在某些任务上的表现与人类基线相当,但 GPT-4o 被发现比 Claude 3 Sonnet 和 GPT-4 Turbo 更强大,但略逊于 Claude 3.5 Sonnet。
-
Meta 发布 Llama 3.1,Google 推出 Gemma 3
Meta 发布了 Llama 3.1,这是一个更新的开源大型语言模型,提供 405B、70B 和 8B 参数版本。Google 也推出了 Gemma 3,一个具有长上下文窗口的新型多模态和多语言模型。这些发布是开源模型在性能和功能方面日益与专有产品竞争的趋势的一部分,尽管许可和具体用例仍然是它们之间的区别。
-
AI 采用辩论:人类将被淘汰还是 AI 用户将被淘汰?
Hacker News 上的一场讨论探讨了人工智能在职业生活中不断发展的角色,一些人认为过度依赖人工智能可能会阻碍人类的学习和批判性思维。与此同时,有抱负的机器学习工程师正在寻求进入该领域的建议,特别是在专注于部署和扩展而非核心模型开发的职位方面。参与者分享了机器学习工程的实际经验,包括数据管理、与非技术利益相关者的协作以及人工智能集成简化复杂任务的潜力。
-
OpenAI 推出非营利组织计划,提供 ChatGPT 优惠访问权限
OpenAI 推出了一项名为“OpenAI for Nonprofits”的新计划,旨在让其人工智能工具更容易被慈善组织使用。该计划包括为 ChatGPT Business 和 Enterprise 提供折扣价,符合条件的非营利组织可享受高达 75% 的折扣。该计划旨在通过利用人工智能来起草拨款提案、进行数据分析和沟通等任务,帮助这些组织克服运营挑战、资金限制和人员短缺的问题。OpenAI 还举办了“Nonprofit Jam”活动,…
-
OpenAI推出经济实惠的GPT-4o mini和开源权重gpt-oss模型
OpenAI发布了GPT-4o mini,这是一款新的、成本效益极高的小型模型,旨在拓宽AI的可访问性和应用开发。与Gemini Flash和Claude Haiku等竞争对手相比,该模型在MMLU、MGSM和HumanEval等基准测试中表现出色。此外,OpenAI还发布了开源权重模型gpt-oss-120b和gpt-oss-20b,这是自GPT-2以来首次发布此类模型,并提供了架构细节和本地执行优化。
-
OpenAI 发布 GPT-4o,支持微调和增强的多模态能力
OpenAI 已为其 GPT-4o 模型推出了微调功能,允许开发者针对特定应用定制其性能和语气。此功能适用于付费套餐,为开发者提供了提高准确性和降低成本的机会,并在软件工程和 SQL 生成方面取得了初步成功。此外,OpenAI 宣布在 9 月 23 日之前,为组织提供 GPT-4o 每天 100 万个训练 token 的免费访问权限,GPT-4o mini 为 200 万个。
-
为微调 API 引入视觉能力
OpenAI 已将其 GPT-4o 的微调 API 扩展到支持图像和文本数据,使开发人员能够增强模型的视觉理解能力。这项新功能允许使用少至 100 张图像进行定制,从而在物体检测和图像分析等任务中取得显著改进。该公司还为微调 API 引入了多项新功能,例如基于 epoch 的检查点创建和比较式 Playground,让开发人员能够更全面地控制和了解他们的微调任务。
-
衡量AI网关故障转移:30天生产数据
Anthropic发布了关于Claude的谄媚行为的更新,指出Opus 4.7与Opus 4.6相比,谄媚回应减少了50%,尤其是在关系指导对话中。该公司还详细介绍了其选举保障措施,强调Claude在提供政治信息方面的公正性和准确性,Opus 4.7和Sonnet 4.6在评估中得分很高。此外,Andrej Karpathy的2025年回顾强调了可验证奖励强化学习(RLVR)作为一项关键进展,使模型能够发展推理策略并导致
-
推出 gpt-realtime 和 Realtime API 更新
OpenAI 发布了 GPT-4.1,这是其 API 的新模型系列,在编码、指令遵循和长上下文理解方面提供了显著改进,性能优于 GPT-4o 等先前模型。该公司还推出了更小、更快的 GPT-4.1 mini 和 GPT-4.1 nano 变体。此外,OpenAI 推出了其最先进的语音到语音模型 gpt-realtime,旨在提供具有增强自然度和指令遵循能力的可靠语音代理,并更新了其 Realtime API。
-
Databricks 使用 Hydra 扩展监控;nOps 在 Lakebase 上重建
Databricks 开发了一个名为 Hydra 的新监控平台,构建在其 Lakehouse 架构之上,以处理其海量运营规模,每日摄取超过 10 万亿个样本并管理 50 亿个活跃时间序列。该平台解决了高基数指标的挑战,并旨在实现更少干预、自我修复的基础设施。同时,nOps 使用 Databricks Lakebase 重建了其云优化平台,整合了其应用程序和分析,以实现更简单、更快的架构。此外,多家公司正在推出旨在简化跨 AWS、GCP…
-
Replit 发布 Guides 和 Extensions 以促进开发者学习和定制
Replit 推出了两项旨在赋能开发者和促进学习的新功能。Replit Guides 提供结构化内容,用于获取新技能和构建应用程序,首批指南侧重于集成 Google 的 Gemini 1.5 Flash、OpenAI 的 GPT-4o 和 Anthropic 的 Claude 等模型,以及 Groq 和 Streamlit 等工具。作为补充,Replit Extensions 为开发者提供了一个新的平台,用于定制他们的编码环境并为 R…
-
OpenAI推出AgentKit;Google DeepMind发布AI编码代理
OpenAI发布了AgentKit,这是一个旨在简化AI代理的开发、部署和优化的综合工具套件。这个新工具包包括用于可视化工作流创建的Agent Builder、用于管理数据集成的Connector Registry以及用于嵌入代理UI的ChatKit。与此同时,Google DeepMind推出了CodeMender,这是一个专注于自动识别和修复软件漏洞的AI代理,以及AlphaEvolve,一个基于Gemini的用于算法发现和优化的…