一个新模型 SIQ-1,通过 PPO 微调 Qwen-35B-A3 开发而成。该模型在自动研究任务上表现强劲,超越了 GLM-5.2 和 Qwen-350B,其生成的想法据称可与 Opus4.8 相媲美。SIQ-1 在 bullshit-bench 基准测试上也取得了有竞争力的结果,超过了 NEX 和 GPT-5.5。 AI
影响 这个微调模型在特定基准测试中展现出有竞争力的性能,可能影响未来在自主代理和自动研究领域的研发。
排序理由 该条目描述了一个微调模型发布和基准测试结果,符合研究类别。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →