New Colonoscopy AI Benchmark Colon-Bench Evaluates MLLMs

By PulseAugur Editorial · [1 sources] · 2026-06-25 04:00

Researchers have developed Colon-Bench, a new benchmark dataset for training AI models on colonoscopy videos. This dataset, generated through a multi-stage agentic workflow, includes detailed annotations for over 300,000 bounding boxes and 213,000 segmentation masks across 14 lesion categories. The benchmark was used to evaluate state-of-the-art Multimodal Large Language Models (MLLMs), revealing surprisingly high localization performance in medical domains compared to existing models like SAM-3. A novel "colon-skill" prompting strategy was also introduced, improving zero-shot MLLM performance by up to 9.7%. AI

IMPACT Establishes a new standard for evaluating MLLMs in medical imaging, potentially accelerating AI adoption in colonoscopy diagnostics.

RANK_REASON Publication of a new benchmark dataset and associated research paper. [lever_c_demoted from research: ic=1 ai=1.0]

Read on arXiv cs.CV →

AI-generated summary · Google Gemini · from 1 sources. How we write summaries →

New Colonoscopy AI Benchmark Colon-Bench Evaluates MLLMs

COVERAGE [1]

arXiv cs.CV TIER_1 English(EN) · Abdullah Hamdi, Changchun Yang, Xin Gao · 2026-06-25 04:00

Colon-Bench: An Agentic Workflow for Scalable Dense Lesion Annotation in Full-Procedure Colonoscopy Videos

arXiv:2603.25645v2 Announce Type: replace-cross Abstract: Early screening via colonoscopy is critical for colon cancer prevention, yet developing robust AI systems for this domain is hindered by the lack of densely annotated, long-sequence video datasets. Existing datasets predom…

COVERAGE [1]

Colon-Bench: An Agentic Workflow for Scalable Dense Lesion Annotation in Full-Procedure Colonoscopy Videos

RELATED TOPICS