Qwen 3.5-35B 模型(非 MTP 版本)已证明能够有效地玩开源 Roguelike 游戏 Dungeon Crawl Stone Soup (DCSS)。虽然 Qwen 的 MTP 版本在工具调用方面存在问题,但标准版本表现良好,即使是较小的量化模型也是如此。这种能力正被探索作为 LLM 在传统基准测试之外的性能基准,该模型成功地导航游戏关卡、击败敌人和管理库存。 AI
影响 展示了 LLM 在复杂、交互式环境中的能力,可能导致新的基准测试方法和超越文本生成的应用。
排序理由 该集群描述了一个模型在非标准应用(玩游戏)中的性能,可以作为基准,符合研究类别。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →