New QUIET benchmark objectively measures LLM creative writing

By PulseAugur Editorial · [3 sources] · 2026-05-25 15:29

Researchers have introduced QUIET, a new benchmark designed to evaluate the creative generation capabilities of large language models. Unlike existing benchmarks that rely on multiple-choice formats or subjective human scoring, QUIET uses a multi-blank cascaded story cloze approach with explicit content constraints and inter-blank dependencies. This method allows for objective, automated scoring based on a "calibrated surprise" framework, which rewards creative yet constraint-satisfying responses. AI

IMPACT Provides a more objective and automated method for assessing LLM creativity, potentially driving improvements in generative AI.

RANK_REASON The cluster describes a new academic paper proposing a novel benchmark for evaluating LLM capabilities.

Read on arXiv cs.AI →

paper
other

AI-generated summary · Google Gemini · from 3 sources. How we write summaries →

New QUIET benchmark objectively measures LLM creative writing

COVERAGE [3]

arXiv cs.AI TIER_1 English(EN) · Bo Zou, Chao Xu · 2026-05-26 04:00

QUIET: A Multi-Blank Cascaded Story Cloze Benchmark for LLM Creative Generation Capability

arXiv:2605.25955v1 Announce Type: cross Abstract: Large language models (LLMs) face a dual challenge in creative capability evaluation: existing benchmarks (e.g., Story Cloze Test, HellaSwag) measure models' discriminative ability over narrative continuation using multiple-choice…
arXiv cs.AI TIER_1 English(EN) · Chao Xu · 2026-05-25 15:29

QUIET: A Multi-Blank Cascaded Story Cloze Benchmark for LLM Creative Generation Capability

Large language models (LLMs) face a dual challenge in creative capability evaluation: existing benchmarks (e.g., Story Cloze Test, HellaSwag) measure models' discriminative ability over narrative continuation using multiple-choice recognition paradigms, rather than directly measu…
Hugging Face Daily Papers TIER_1 English(EN) · 2026-05-25 15:29

QUIET: A Multi-Blank Cascaded Story Cloze Benchmark for LLM Creative Generation Capability

Large language models (LLMs) face a dual challenge in creative capability evaluation: existing benchmarks (e.g., Story Cloze Test, HellaSwag) measure models' discriminative ability over narrative continuation using multiple-choice recognition paradigms, rather than directly measu…

COVERAGE [3]

QUIET: A Multi-Blank Cascaded Story Cloze Benchmark for LLM Creative Generation Capability

QUIET: A Multi-Blank Cascaded Story Cloze Benchmark for LLM Creative Generation Capability

QUIET: A Multi-Blank Cascaded Story Cloze Benchmark for LLM Creative Generation Capability

RELATED ENTITIES

RELATED TOPICS