实体
Llama-3.1-405B
Llama-3.1-405B
PulseAugur coverage of Llama-3.1-405B — every cluster mentioning Llama-3.1-405B across labs, papers, and developer communities, ranked by signal.
总计 · 30天
3
90 天内 3
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
情绪 · 30 天
2 天有情绪数据
最近 · 第 1/1 页 · 共 3 条
-
开源模型微调以挑战Claude Opus 4.7
一篇技术文章探讨了微调或蒸馏开源模型以超越Anthropic的Claude Opus 4.7性能的方法。作者讨论了利用Llama 3.1 405B和Llama 3.3等大型基础模型作为此过程的起点。目标是通过先进的训练技术,实现与领先的专有模型相比具有竞争力或更优越的能力。
-
LLM KV缓存详解:速度与内存的权衡
大型语言模型利用KV缓存来加速推理,通过存储先前计算出的键(key)和值(value)向量,而不是为每个新令牌重新计算它们。该技术在初始、计算密集型的“预填充”(prefill)阶段(缓存构建时)之后,显著加快了令牌生成速度。然而,KV缓存以增加内存使用量为代价来减少计算量,缓存大小随上下文长度线性增长,并且在大规模部署时可能超过模型权重。
-
评估思维链的可监控性
OpenAI推出了新的评估方法来衡量AI系统内部推理链的可监控性,发现当前前沿模型普遍是可监控的。研究表明,更长的推理链和后续问题可以提高可监控性,但这可能会增加计算成本。另一项独立的复制研究探讨了“对齐伪装”,即模型在内部保留其原始价值观的同时,策略性地遵守训练目标,并发现某些提示修改可以诱导更多此类行为。