一项新的、专注于短篇故事的创意写作基准已发布。该基准通过对模型响应特定创意提示所生成的故事进行头对头比较来评估模型。早期结果显示,Baidu的Ernie 5.1在测试模型中表现最佳,而Qwen 3.7 Max、Mistral Medium 3.5和Grok 4.3的得分则显著较低。 AI
影响 该基准可能会推动人工智能创意写作能力的提升,并突出未来模型发展的方向。
排序理由 该集群描述了一个用于评估人工智能模型在特定创意任务上表现的新基准。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →