Poetiq 开发了一个 Meta-System,可自动创建推理 Harness,在无需任何模型微调的情况下显著提高了 LLM 在编码基准测试中的性能。该系统在 LiveCodeBench Pro 上取得了最先进的成果,将 GPT 5.5 High 的分数从 89.6% 提高到 93.9%,将 Gemini 3.1 Pro 的分数从 78.6% 提高到 90.9%。Meta-System 的 Harness 被设计为模型无关的,通过优化提示、输出结构和评估过程,展示了其增强各种 LLM 的能力。 AI
影响 展示了一种无需微调即可增强 LLM 编码能力的新颖方法,有望提高 AI 工具的效率和可访问性。
排序理由 该集群报道了一个在新兴的竞争性编码基准测试中取得最先进成果的新系统,详细介绍了其方法论及其对 LLM 性能的影响。
AI 生成摘要 · Google Gemini · 来自 4 个来源。 我们如何撰写摘要 →