一位用户在一个实时众筹平台上对五个先进的 AI 模型进行了比较实验,评估它们审计活动和评估可信度的能力。所有模型都将同一个众筹活动识别为最可信,但 Fable 5 是唯一一个进行平台外外部验证的模型。GPT-5.5 和 Anthropic 的 Claude 模型(Opus 4.8、Sonnet 4.6、Haiku 4.5)在识别众筹活动和检测重复创建者活动方面表现出不同程度的成功,其中 Haiku 4.5 在查找所有众筹活动方面遇到困难。 AI
影响 突出了 AI 模型在超越编码的复杂、真实世界判断任务方面的能力差异。
排序理由 用户进行的基准测试,比较多个前沿模型在特定任务上的表现。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →