GPQA Diamond
PulseAugur coverage of GPQA Diamond — every cluster mentioning GPQA Diamond across labs, papers, and developer communities, ranked by signal.
2 天有情绪数据
-
New STAND technique slashes LLM reasoning latency by 65%
研究人员开发了 STAND(STochastic Adaptive N-gram Drafting),一种新的无模型推测解码技术,旨在加速语言模型推理。该方法利用推理轨迹中的冗余来更有效地预测 token,而无需单独的草稿模型。STAND 在各种推理任务和模型上已证明可将推理延迟减少 60-65%,同时保持准确性并优于现有的推测解码方法。
-
苹果的RVPO框架通过惩罚奖励方差来增强LLM对齐
研究人员推出了一种名为奖励-方差策略优化(RVPO)的新型框架,旨在提高大型语言模型与多个目标的一致性。与现有平均奖励的方法不同,RVPO惩罚不同奖励信号之间的方差,从而促进一致性并防止关键约束被忽略。该方法在涉及医学和科学推理以及工具调用的任务上进行了评估,在HealthBench等基准测试中表现出改进的性能,并在GPQA-Diamond上保持了准确性。
-
AI models: Choose benchmarks over hype for true performance
A recent analysis highlights that tech companies often select AI models based on hype rather than performance on relevant benchmarks. The article emphasizes that benchmarks like SWE-bench for coding, Terminal-Bench for …
-
新的微调方法可在不改写的情况下增强LLM知识注入
研究人员开发了一种名为扩散启发式掩码微调(DMT)的新型微调方法,用于自回归大型语言模型(LLM)。该技术旨在改进事实知识向LLM的注入,解决了对计算成本高昂的改写和逆转诅咒的依赖等问题。实验表明,DMT显著提高了知识注入的效率,在无需改写的情况下即可达到扩散LLM的性能,并展示了其在包括数学在内的各种任务中的广泛适用性。
-
新方法在不牺牲稳定性的情况下增强了LLM推理的多样性
研究人员推出了一种名为Expert-Sample的新型无训练方法,旨在增强细粒度混合专家(MoE)模型的性能。该技术通过分析MoE层的路由分数来解决测试时扩展的性能与多样性和稳定性之间的权衡问题。Expert-Sample利用了MoE路由器表现出高置信度“确定头”和低置信度“不确定尾”的观察结果,选择性地将随机性注入后者,以提高生成多样性而不损害输出稳定性。该方法在Qwen3-30B-A3B-Instruct等模型上的评估显示,在各种…
-
State Stream Transformer V2 通过并行训练和潜状态流增强 LLM 推理能力
研究人员开发了 State Stream Transformer (SST) V2,这是一种旨在增强语言模型潜空间推理能力的架构创新。与在每一步重置上下文的标准 Transformer 不同,SST V2 采用非线性递归机制,在整个序列中维护和演化连续的潜状态。这使得参数使用更有效,并在生成 token 前进行更深入的思考,从而在推理任务上取得显著改进。
-
拥有 1.6T 参数的 DeepSeek-V4 Pro 模型现已上线 Together AI
DeepSeek-V4 Pro 是一个拥有 1.6 万亿参数的大型混合专家模型,现已在 Together AI 平台上可用。该模型专为长上下文推理而设计,在其最初的 Together AI 部署中支持高达 512K 令牌的上下文窗口,并计划支持 1M 令牌的上下文窗口。它具有可控的推理模式,可针对速度或深度进行优化,并为缓存的输入令牌提供专门的定价,以降低重复查询的成本。
-
FINAL-Bench/Darwin-36B-Opus · Hugging Face
Darwin-36B-Opus 模型,一个拥有 360 亿参数的混合专家语言模型,已发布。它使用 Darwin V7 进化育种引擎创建,结合了 Qwen/Qwen3.6-35B-A3B 和 Claude 4.6 Opus 蒸馏变体的一些方面。这个自动化过程在单个 GPU 上不到一小时就生成了一个可部署的检查点。Darwin-36B-Opus 在 GPQA Diamond 基准测试中取得了 88.4% 的分数,为 Darwin 系列的开…
-
Process Supervision via Verbal Critique Improves Reasoning in Large Language Models
Researchers have developed a new framework called Verbal Process Supervision (VPS) that enhances the reasoning capabilities of large language models without requiring gradient updates. This method utilizes structured na…
-
OpenAI 的 GPT-5.2 推动科学与数学发展,评估显示灾难性风险较低
OpenAI 发布了 GPT-5.2,一款在数学和科学推理方面取得显著进步的新模型。该模型在 GPQA Diamond 和 FrontierMath 等基准测试中取得了高分,表明其通用推理和抽象能力有所提高。OpenAI 正在探索 GPT-5.2 如何通过协助研究人员进行证明生成、文献综述和复杂计算等工作来加速科学发现,同时强调人类监督和验证的持续重要性。