一项新的基准测试 Fable 5 已发布,用于评估 AI 模型在创意任务和视频生成方面的能力。早期结果表明,尽管 Fable 5 相较于前代版本有所改进,但 Gemini 3.1 Pro 在工具使用和代码生成方面偶尔出现故障,但其艺术视野仍被认为更强。该基准测试还包括与其他模型(包括开源选项)的比较,以评估它们的创意能力和整体规模。 AI
影响 为 AI 创意和视频生成提供了一个新的评估框架,可能指导未来的模型开发。
排序理由 该集群描述了一个用于评估 AI 模型的新基准测试,属于研究范畴。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →