研究人员开发了一个新的自动化框架,用于评估大型语言模型(LLM)在各种开放式任务中的创造力。这种领域无关的方法使用语义熵来衡量发散性创造力(新颖性和多样性),并使用多智能体评判系统来衡量聚合性创造力(任务完成度)。该框架在解决问题、研究构思和创意写作等方面的LLM上进行了验证,揭示了模型属性如何影响创造性输出。 AI
影响 为评估LLM创造力建立了可复现的标准,实现了可扩展的基准测试,并加速了创意AI的进步。
排序理由 该集群包含一篇学术论文,详细介绍了用于评估LLM创造力的新研究框架。
- LLMs
- retrieval-based multi-agent judge framework
- Automated Creativity Evaluation of Language Models Across Open-Ended Tasks
- Large language models
- multi-agent judge framework
AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →