English(EN) AI giants score below 25% in UC Berkeley-led test of real-world application | Campus https://www. byteseu.com/2109375/ # Agents ’LastExam # AI # ale # Anthropic

AI巨头在实际应用测试中得分低于25%

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-15 12:25

加州大学伯克利分校研究人员开发的新基准测试显示，领先的AI模型在实际应用方面表现不佳，得分低于25%。OpenAI的GPT-5.5通过率为24%，得分最高，紧随其后的是Anthropic的Claude Fable 5，通过率为22%。Google Gemini、DeepSeek和Grok等其他知名模型在从音频处理到理论物理的任务上的得分均低于16%。 AI

影响凸显了当前AI在实际任务能力方面的显著局限性，表明理论性能与实际应用之间存在差距。

排序理由该集群报告了一项新的基准测试及其结果，这是一项大学的研究成果。

在 Mastodon — sigmoid.social 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

Mastodon — sigmoid.social TIER_1 English(EN) · [email protected] · 2026-06-15 12:25

AI巨头在加州大学伯克利分校牵头的实际应用测试中得分低于25% | Campus https://www. byteseu.com/2109375/ # Agents ’LastExam # AI # ale # Anthropic

AI giants score below 25% in UC Berkeley-led test of real-world application | Campus https://www. byteseu.com/2109375/ # Agents ’LastExam # AI # ale # Anthropic # ArtificialIntelligence # BenjaminLiu # ChristineParlour # ClaudeFable5 # DawnSong # DecentralizedIntelligence # DeepS…

链接 byteseu.com/2109375
r/OpenAI TIER_2 English(EN) · /u/the_daily_cal · 2026-06-15 23:10

AI巨头在加州大学伯克利分校牵头的实际应用测试中得分低于25%

<table> <tr><td> <a href="https://www.reddit.com/r/OpenAI/comments/1u6wkhf/ai_giants_score_below_25_in_uc_berkeleyled_test/"> <img alt="AI giants score below 25% in UC Berkeley-led test of real-world application" src="https://external-preview.redd.it/M8_lt4wTOp7_sTIOIP05RKaIgyegJ…

报道来源 [2]

AI巨头在加州大学伯克利分校牵头的实际应用测试中得分低于25% | Campus https://www. byteseu.com/2109375/ # Agents ’LastExam # AI # ale # Anthropic

AI巨头在加州大学伯克利分校牵头的实际应用测试中得分低于25%

相关实体

相关话题