上海交通大学和 Qwen 团队的研究人员推出了一种名为 CodePercept 的新方法,旨在增强大型语言模型在 STEM 任务中的视觉感知能力。他们的研究表明,提升视觉感知能力,而非仅仅是推理能力,是模型解决科学和数学问题的关键瓶颈。CodePercept 利用代码作为精确的视觉理解语言,使模型能够生成准确表示图像内容的、可执行的代码,从而克服自然语言描述的固有歧义。 AI
影响 这种方法通过基于代码的精确表示来增强 LLM 的视觉感知能力,有望显著提高其理解和解决复杂 STEM 问题的能力。
排序理由 该集群描述了一篇关于改进 LLM 视觉感知的新研究论文和方法论,包括一个新的数据集和基准测试。[lever_c_demoted from research: ic=1 ai=1.0]
- Claude Opus 4.1
- CodePercept
- GPT-5
- ICC-1M
- large language models
- Qwen2.5-VL-72B
- Qwen3-VL-Plus
- Qwen team
- Seed 1.6-Vision
- Shanghai Jiao Tong University
- STEM2Code-Eval
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →