English(EN) Short Story Creative Writing Benchmark. Baidu Ernie 5.1: -0.35, Qwen 3.7 Max: -2.01, Mistral Medium 3.5: -2.13, Grok 4.3: -3.81.

新基准评估人工智能创意写作能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-26 17:28

一项新的、专注于短篇故事的创意写作基准已发布。该基准通过对模型响应特定创意提示所生成的故事进行头对头比较来评估模型。早期结果显示，Baidu的Ernie 5.1在测试模型中表现最佳，而Qwen 3.7 Max、Mistral Medium 3.5和Grok 4.3的得分则显著较低。 AI

影响该基准可能会推动人工智能创意写作能力的提升，并突出未来模型发展的方向。

排序理由该集群描述了一个用于评估人工智能模型在特定创意任务上表现的新基准。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/singularity TIER_2 English(EN) · /u/zero0_one1 · 2026-05-26 17:28

Short Story Creative Writing Benchmark. Baidu Ernie 5.1: -0.35, Qwen 3.7 Max: -2.01, Mistral Medium 3.5: -2.13, Grok 4.3: -3.81.

<table> <tr><td> <a href="https://www.reddit.com/r/singularity/comments/1todw2r/short_story_creative_writing_benchmark_baidu/"> <img alt="Short Story Creative Writing Benchmark. Baidu Ernie 5.1: -0.35, Qwen 3.7 Max: -2.01, Mistral Medium 3.5: -2.13, Grok 4.3: -3.81." src="https:/…