PulseAugur
实时 04:44:32
实体 bullshit-bench

bullshit-bench

PulseAugur coverage of bullshit-bench — every cluster mentioning bullshit-bench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
0
90 天内 0
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_97461 ·

    SIQ-1 微调的 Qwen3.6 展现出 Opus 级别的推理能力,超越 GPT-5.5

    一个新模型 SIQ-1,通过 PPO 微调 Qwen-35B-A3 开发而成。该模型在自动研究任务上表现强劲,超越了 GLM-5.2 和 Qwen-350B,其生成的想法据称可与 Opus4.8 相媲美。SIQ-1 在 bullshit-bench 基准测试上也取得了有竞争力的结果,超过了 NEX 和 GPT-5.5。