Anthropic 最新的模型 Opus 4.8 和 Opus 4.7 在十项不同测试中进行了比较。虽然两个模型都表现强劲,但 Opus 4.8 在处理复杂的法律查询方面显示出显著的改进。然而,比较也显示,当遇到某些法律问题时,Opus 4.8 出现了完全的失败,这表明了进一步发展的空间。 AI
影响 突出了大型语言模型推理的潜在改进和局限性,特别是在法律应用等专业领域。
排序理由 该集群比较了模型的两个版本,详细介绍了在各种测试中的性能,属于研发分析。 [lever_c_demoted from research: ic=1 ai=1.0]
在 Mastodon — fosstodon.org 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →