Llama · PulseAugur

机器学习从业者就 Nanochat 与 Llama 从头开始训练模型进行辩论

一位用户正在就为新训练运行选择模型架构寻求建议，目标是选择一个与 Hugging Face Transformers 库兼容的开源项目。他们之前的项目成功地使用 Nanochat 进行预训练和 SFT，但生成的模型与 Transformers 不直接兼容。用户正在考虑 Llama 架构，因为它具有潜在的互操作性，但也在权衡 Nanochat 的优势，例如其自动缩放深度参数。他们正在寻求关于最佳架构或确保兼容性的方法的建议。

RESEARCH · CL_03002 · Apr 23 · 17:50

新方法通过高效、结构化的低秩调优增强大语言模型适应性

研究人员推出了一种名为 MLorc 的新方法，用于大语言模型的内存高效适应，该方法在训练过程中压缩参数动量。该方法旨在降低内存需求而不牺牲性能，其表现优于 LoRA 和 GaLore 等现有技术。同时，另一项研究通过信号处理的视角探讨了低秩适应（LoRA），分析了其架构和优化机制。此外，还开发了一个名为 StructLoRA 的新框架，通过过滤不相关的更新方向并确保层间一致性来改进 LoRA，从而在各种模型类型上取得了最先进的结果，且…

RESEARCH · CL_02956 · Apr 23 · 14:08

基于自然风格触发器的LLM隐蔽后门攻击

研究人员开发了一种名为Tail-risk Intrinsic Geometric Smoothing (TIGS)的新防御机制，用于保护大型语言模型免受后门攻击。TIGS在推理过程中运行，无需模型更新或外部数据，即可识别和破坏恶意注意力模式。另外，一个名为BadStyle的新攻击框架已被提出，它使用自然风格触发器为LLM创建隐蔽的投毒样本。BadStyle旨在通过确保自然性、稳定有效载荷注入以及在现实威胁模型下运行来克服先前攻击的局限性。

RESEARCH · CL_05407 · Apr 20 · 13:37

AdaLeZO speeds up LLM fine-tuning with adaptive layer sampling

Researchers have developed AdaLeZO, a new framework designed to make Zeroth-Order (ZO) optimization more efficient for fine-tuning Large Language Models. This method addresses the slow convergence and high variance typi…

FRONTIER RELEASE · CL_01750 · Apr 2 · 05:44

Google releases open-weight Gemma 4 multimodal models with long context

Google DeepMind has released Gemma 4, a new family of open-weight models licensed under Apache 2.0, marking a significant advancement in their open-source AI offerings. The models are designed for reasoning and agentic …

RESEARCH · CL_39746 · Mar 4 · 00:00

新研究通过先进的压缩和存储技术解决 LLM KV 缓存瓶颈

2026年5月发布的几篇研究论文介绍了优化大型语言模型中键值（KV）缓存的新技术，以解决内存和延迟瓶颈。这些方法包括将 KV 缓存卸载到 S3 等对象存储（ObjectCache），采用三向令牌路由（VECTOR）等先进压缩策略，以及使用辅助模型进行选择性 KV 缓存重新计算（CacheClip）。其他方法侧重于硬件感知量化（InnerQ, OCTOPUS）和面向服务的自适应压缩（KVServe），以提高效率并减少解码延迟，尤其是在长…

TOOL · CL_17669 · Feb 23 · 20:16

Opper发现，大多数AI模型未能通过简单的“洗车”推理测试

一项名为“洗车测试”的新基准显示，许多领先的AI模型在基本推理方面存在困难。当被问及是步行还是开车50米去洗车时，53个测试模型中有42个错误地建议步行。即使是Claude Sonnet 4.5和GPT-5.2等顶级模型，在单次运行中也未能通过测试。一致性测试显示进一步的性能下降，只有五个模型在十次尝试中都能可靠地正确回答，这凸显了实际推理能力方面存在的重大差距。

SIGNIFICANT · CL_45251 · Feb 6 · 00:00

Together AI 扩展 LLM 微调功能，增加更长上下文

Together AI 增强了其微调平台，以支持更广泛的大型语言模型，包括 DeepSeek、Qwen 和 Meta 的最新版本，以及 OpenAI 的 gpt-oss。该平台现在提供扩展的上下文长度，部分模型的上下文长度可达 131k token，且无需额外费用，从而便于处理长文档和复杂的代码编辑等任务。另外，Together AI 的研究人员使用最小、主题中立的提示来探索 LLM 的行为，以揭示模型固有的偏好，他们发现 GPT-O…

COMMENTARY · CL_47673 · Jan 8 · 00:00

指南详述为生产环境选择开源AI模型的考量

为生产环境选择合适的开源AI模型需要仔细考虑透明度、适应性和控制权等因素。虽然专有模型提供分层选项，但开源模型允许更深入的定制和所有权。然而，商业用途必须严格遵守法律许可要求，例如Apache-2.0或MIT，并且模型大小应与同类闭源模型的能力层级相对应。

FRONTIER RELEASE · CL_40513 · Dec 15 · 00:00

NVIDIA Nemotron Diffusion模型提供6.4倍更快的AI推理速度

NVIDIA发布了Nemotron-Labs Diffusion系列语言模型，提供3B、8B和14B参数规模。这些模型在一个架构内独特地支持自回归（AR）、扩散和自推测解码模式，实现了显著的速度提升。通过并行生成token块而非顺序生成，Nemotron-Labs Diffusion的吞吐量比传统AR模型高出6.4倍，同时保持或提高了准确性。这一突破解决了AR模型固有的内存带宽瓶颈，使其在生产部署和代理系统中更高效。

RESEARCH · CL_47687 · Jun 12 · 00:00

Together AI 通过 Hypertec 和 5C 在欧洲部署 100,000 个 GPU

Together AI 正通过与 Hypertec 和 5C Group 的合作，大力扩展其在欧洲的基础设施。该计划旨在提供高达 2 吉瓦的 AI 专用数据中心容量和近 100,000 个 NVIDIA GPU，初步部署将于 2025 年底开始，并持续到 2028 年。此次扩张侧重于提供主权、符合法规的 AI 基础设施，以支持前沿模型的训练和推理，满足欧洲对本地化 AI 能力日益增长的需求。

TOOL · CL_17709 · May 21 · 16:10

Meta launches Llama Startup Program offering funding and support for AI builders

Meta has launched the Llama Startup Program to support early-stage companies building generative AI applications with its Llama models. The initiative offers financial reimbursements of up to $6,000 per month for six mo…

TOOL · CL_17584 · May 15 · 16:19

Tinfoil 推出云 AI 服务，利用安全飞地实现可验证隐私

Tinfoil 是一家由 MIT 和 Cloudflare 研究人员创立的初创公司，该公司推出了一项新服务，旨在为托管在云端的 AI 工作负载提供可验证的隐私。该平台利用安全飞地技术，特别是 NVIDIA 在 GPU 上的机密计算能力，确保 Tinfoil 和云提供商都无法访问 AI 模型处理的敏感数据。这种方法旨在通过用可证明的安全性取代信任来增强 AI 隐私，从而实现需要私有数据的更复杂的 AI 应用。

TOOL · CL_47694 · Apr 17 · 00:00

Together AI 发布持续 LLM 微调平台

Together AI 推出了新的微调平台，允许用户持续改进开放权重语言模型。该平台现已支持偏好优化和持续训练，使模型能够根据用户反馈和新数据进行调整。新的 Web UI 简化了该过程，允许开发人员直接从浏览器管理数据集、指定参数和监控实验。

RESEARCH · CL_04679 · Jan 7 · 00:00

Eugene Yan curates essential language modeling papers for study groups

Eugene Yan has compiled a reading list of fundamental language modeling papers, intended to facilitate group study sessions. The list includes seminal works like "Attention Is All You Need," "BERT," and "GPT-3," each ac…

FRONTIER RELEASE · CL_00878 · Jul 19 · 14:00

Meta 的 Llama 2 超越开源 LLM 排行榜，支持商业用途

Meta 发布了 Llama 2，一个开源的大型语言模型，它迅速成为同级别模型中的最先进水平，性能超越了其他开源模型。该模型在 2 万亿个 token 上进行了预训练，具有更长的上下文长度，并在人类反馈强化学习方面进行了大量投入。Llama 2 可用于商业用途，满足了不能将敏感数据发送给外部 API 提供商的组织的关键需求，并为 GPT-4 等专有模型提供了替代方案。

SIGNIFICANT · CL_00880 · Jun 20 · 15:34

George Hotz的tiny corp推出1.5万美元AI电脑和基于RISC的tinygrad框架

George Hotz的公司tiny corp发布了tinybox，一款售价1.5万美元的个人AI电脑，专为本地模型训练和推理设计。tinybox拥有738 FP16 TFLOPS和144 GB GPU内存，能够直接运行65B LLaMA模型。Hotz通过tinygrad框架采用RISC理念以提高效率，并避免图灵完备内核，旨在通过专注于开发者体验和优化现成硬件来与NVIDIA等成熟厂商竞争。

RESEARCH · CL_00966 · May 23 · 00:00

Safetensors library audited as secure, set to become default for ML models

The safetensors library, developed by Hugging Face in collaboration with EleutherAI and Stability AI, has undergone a security audit by Trail of Bits, confirming its safety. This audit allows the organizations to move t…