实体 frontier large language models

frontier large language models

PulseAugur coverage of frontier large language models — every cluster mentioning frontier large language models across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 1

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

主题

论文 1
模型发布 1

时间线

2026-05-10 research_milestone A new benchmark indicates frontier LLMs corrupt 25% of documents in long workflows. 来源

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_24718 · May 10 · 06:05

前沿大语言模型导致25%文档损坏；ChatGPT 5.5 Pro解决博士数学题

一项新的基准测试显示，前沿大语言模型在长工作流中会损坏约25%的文档。另外，一位菲尔兹奖得主报告称，ChatGPT 5.5 Pro能够解决复杂的博士级别数学问题。

前沿大语言模型导致25%文档损坏；ChatGPT 5.5 Pro解决博士数学题