实体 LiveCodeBench V6

LiveCodeBench V6

PulseAugur coverage of LiveCodeBench V6 — every cluster mentioning LiveCodeBench V6 across labs, papers, and developer communities, ranked by signal.

总计 · 30天

2

90 天内 6

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 4

层级分布 · 90 天

significant 1
research 2
tool 3

主题

情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 6 条

TOOL · CL_145035 · Jul 15 · 16:42

Agents-A1-4B 模型在长时域搜索中表现强劲

InternScience 开发的新模型 Agents-A1-4B 在多项基准测试中表现强劲，尤其是在长时域搜索和智能体任务方面。该模型基于 Qwen3.7-4B，在 BrowseComp 和 GAIA 等领域显著优于其基础模型。虽然在指令遵循和工程任务方面取得了有竞争力的结果，但在 LiveCodeBench-V6 和 FrontierScience-Research 等一些领域落后于更大的模型。
RESEARCH · CL_94915 · Jun 16 · 13:44

新的 3B 模型 VibeThinker 在数学和编码方面达到前沿性能

研究人员开发了 VibeThinker-3B，这是一个拥有 30 亿参数的小型模型，在数学和编码任务上的表现可与更大模型相媲美。该模型基于 Qwen2.5-Coder-3B 构建，并采用了 Spectrum-to-Signal 训练流程，在 AIME26 和 LiveCodeBench 等基准测试中取得了优异成绩。开发者强调，参数密集的小型模型可以提供前沿的推理能力，是对传统扩展定律的补充，但他们也承认在更广泛的通用应用方面存在局限性。
RESEARCH · CL_53559 · May 26 · 13:21

新的CPPO方法通过探索多种策略来提升代码生成能力

研究人员推出了一种名为协调Pass@K策略优化（CPPO）的新方法，通过同时探索多种不同的算法策略来增强代码生成能力。与抽取独立样本的标准方法不同，CPPO训练一个联合策略，其中规划器提出$K=4$个备选方法，共享求解器尝试为每个方法找到解决方案。这种协调探索在APPS、CodeContests和LiveCodeBench-v6等多个基准测试中，显著提高了pass@K指标。
RESEARCH · CL_40825 · May 19 · 06:46

新的自蒸馏方法提高了大型语言模型在推理任务上的性能

研究人员开发了新的大型语言模型自蒸馏技术，可在不依赖外部反馈的情况下提高其性能。AVSD（自适应视图自蒸馏）在多个特权信息视图之间平衡共识信号，并使用视图特定的残差来增强学习。自策略蒸馏（SPD）从梯度中提取能力子空间，以提高性能和泛化能力，尤其是在代码生成和数学推理方面。CEPO（对比证据策略优化）通过对比正确答案和错误答案来锐化关键标记的信用分配，从而提高了多模态数学推理基准的准确性。
RESEARCH · CL_02960 · Apr 23 · 12:36

通过口头批评进行过程监督可提高大型语言模型的推理能力

研究人员开发了一种名为口头过程监督（VPS）的新框架，该框架无需梯度更新即可增强大型语言模型的推理能力。该方法利用更强大的AI生成的结构化自然语言批评来指导迭代的生成-批评-精炼过程。在GPQA Diamond和AIME 2025等基准测试上的实验表明，VPS取得了显著的改进，超越了现有的最先进结果，并优于Reflexion和Self-Consistency等其他方法。
FRONTIER RELEASE · CL_01735 · Oct 23 · 18:54

Google DeepMind 为 Gemini Ultra 订阅用户推出 Deep Think

Google DeepMind 发布了一项名为 Deep Think 的新 AI 功能，现已通过 Gemini 应用提供给 Google AI Ultra 订阅用户。该功能利用并行思考技术，使模型能够同时探索多个想法并延长其解决复杂问题的推理时间。Deep Think 在 LiveCodeBench V6 和 Humanity's Last Exam 等基准测试中表现出了最先进的性能，内部评估显示其在 2025 年国际数学奥林匹克基准…