CUDA · PulseAugur

在Windows上为AI开发在WSL Ubuntu上设置CUDA

本指南详细介绍了如何在Windows子系统 for Linux (WSL) 的Ubuntu上设置CUDA，从而在无需双重启动设置的情况下为AI开发启用GPU加速。该过程旨在简化在Windows上运行AI工作负载的用户的流程。

英伟达股价下跌，因人工智能计算价格下降，内存芯片飙升

尽管收入预测不断增长，英伟达的股价却大幅下跌，因为投资者焦点转向了美光等人工智能内存芯片制造商。虽然英伟达的CUDA平台和GPU开发对人工智能的繁荣起到了重要作用，但GPU短缺的缓解以及主要科技公司定制处理器的兴起导致GPU计算价格下降。相反，对高带宽内存（HBM）芯片的需求激增，导致其价格上涨了十倍，使内存公司成为人工智能基础设施市场的新瓶颈和热门投资。

RESEARCH · CL_133267 · Jul 9 · 02:03

英特尔 GPU 在 AI 推理方面挑战英伟达；自主式勒索软件出现 · 跟踪 1 个来源

英特尔的 Arc Pro B70 GPU 在 AI 推理任务中展现了令人印象深刻的性价比扩展性，在四 GPU 配置下，其在特定基准测试中的表现优于英伟达的 RTX 5090D。虽然英特尔的硬件为预算有限的推理工作负载带来了希望，但英伟达的 CUDA 生态系统仍然是一个显著优势。在网络安全方面，已发现首个自主式 AI 勒索软件攻击，该软件能够自主决策、识别目标和提升权限，对传统安全措施提出了新的挑战。此外，编码平台 Base44 已开发…

TOOL · CL_135708 · Jul 9 · 00:00

新运行时使 Stable Audio 3 能够在 Raspberry Pi 5 上运行

研究人员开发了“aria”，这是一种新的、无依赖的语义音频生成运行时引擎，可在嵌入式设备上高效运行。这款基于 C 语言的引擎无需 Python 或深度学习框架，即可在 Raspberry Pi 5 和标准 CPU 等硬件上运行 Stable Audio 3 模型，并通过量化显著减少内存使用。Aria 还引入了激活引导，以实现对生成音频的更大控制，展示了面向“万物互联之声”应用的实际设备端音频生成能力。

TOOL · CL_132672 · Jul 8 · 18:42

开源AI管线可在本地生成游戏资产

一位开发者创建了一个使用开源AI模型在本地生成游戏资产的完整管线，并已移植到GGML以实现本地执行。该管线包括用于文本转语音及语音克隆（OpenMOSS）、音效生成（ThinkSound.cpp）以及最先进的3D模型生成（Trellis.2）的工具。这些工具已集成到Lemonade SDK中，通过级联模型实现文本到3D生成等复杂工作流。整个系统基于宽松的开源许可证构建，并支持CUDA、Vulkan和ROCm以实现广泛的硬件兼容性。

TOOL · CL_131959 · Jul 8 · 10:33

新的开源工具可在 logits 层面拦截 LLM 越狱

一款名为 resk-logits 的新开源工具已发布，通过在 token 被采样之前，在 logits 层面拦截有害内容，从而增强 LLM 的安全性。该 GPU 加速处理器使用 Aho-Corasick 算法扫描整个词汇表以查找恶意模式，将匹配 token 的 logits 设置为负无穷以实现硬拦截，或在“影子禁令”模式下应用惩罚。它使用 CUDA 和 Metal 后端开发，开销低于毫秒，并兼容任何 Hugging Face Auto…

TOOL · CL_131465 · Jul 8 · 04:00

新框架通过状态分析对深度神经网络进行经验性压缩

研究人员开发了一种通过分析其内部状态的可控性和可观测性来压缩深度神经网络的新颖方法。该框架将训练好的网络视为动力学系统，使用数据驱动的测试来估计隐藏状态内的冗余度。该方法成功地减小了MNIST和CIFAR-10数据集上网络的态阶，在状态和参数方面实现了显著压缩，同时在很大程度上保持了准确性并提高了推理速度。

TOOL · CL_130775 · Jul 7 · 19:57

Together AI 详解使用 NVIDIA Blackwell 进行延迟优化

Together AI 详细介绍了其优化推理延迟的方法，重点介绍了 NVIDIA 技术与其自身平台的集成。他们的系统 Together ATLAS 利用 NVIDIA Blackwell、CUDA、TensorRT-LLM 和 Dynamo 以及自定义内核，为用户实现低于 100 毫秒的响应时间。这种优化对于实现更快的推理和长上下文代码生成至关重要。

TOOL · CL_128271 · Jul 7 · 01:16

MLX 与 GGUF：为 Apple Silicon 选择正确的本地 LLM 格式

对于在 Apple Silicon Mac 上运行本地大型语言模型的用户来说，MLX 和 GGUF 格式之间的选择取决于性能与便携性的权衡。MLX 是 Apple 的原生框架，通过利用统一内存架构，可提供 15-40% 的速度提升并减少内存使用，但仅限于 Apple Silicon。GGUF 是一种更通用的格式，兼容 Linux 和 Windows 等各种平台，并可在 CPU 和 GPU 上运行，使其成为跨平台或长期项目的更安全选择。

COMMENTARY · CL_128032 · Jul 6 · 20:55

Reddit 用户讨论华为 GPU 与 CUDA 的兼容性，发布近一年后

r/LocalLLaMA subreddit 上的一位 Reddit 用户正在询问华为 GPU 的性能和兼容性，距离其发布已近一年。该用户特别询问了 CUDA（由 Nvidia 开发的并行计算平台和 API）现在是否可以在这些替代显卡上运行。该帖子暗示，最初围绕这些 GPU 的兴奋感（人们曾预计它们将挑战 Nvidia 的主导地位）可能已经减退。

COMMENTARY · CL_127883 · Jul 6 · 11:57

机器学习职位要求要求广泛的专业知识，这几乎是不可能的

Reddit 上 r/MachineLearning 版块的一篇帖子强调了机器学习行业中职位要求日益增长和专业化明显的趋势。作者对招聘启事中列出的、在不同领域如 LLMs、机器人、传感器融合、CUDA 编程，甚至顶级学术出版物方面，要求拥有压倒性数量的深度专业知识感到震惊。这种所需技能的广度，被比作需要掌握多个不同学术学科的专业知识，这让作者质疑公司到底期望招聘谁。

RESEARCH · CL_127371 · Jul 6 · 09:41

蔚来向70万+辆车推出统一全域模型OTA

蔚来已成功向超过70万辆蔚来和Onvo汽车推送了新的全域模型（world model）的空中下载（OTA）更新，无论其车龄或硬件配置如何。这一复杂的壮举是通过统一的代码库和单一模型实现的，利用了其自主研发的AI系统，该系统包括定制芯片和专有AI编译器。公司从早期就投资于先进硬件和强大AI基础设施的战略，使其能够支持旧车上的当前模型，这与行业中通常为旧型号提供特定硬件或“精简版”软件的做法形成了鲜明对比。蔚来的方法强调构建一个全面的AI…

RESEARCH · CL_127431 · Jul 6 · 00:00

新的推测解码方法提高了 LLM 推理速度和效率 · 跟踪 6 个来源

研究人员推出了 DominoTree，一种新颖的推测解码方法，通过使用条件树状结构显著加速 LLM 推理。该方法在 Qwen3-4B 模型上实现了高达 6.6 倍的加速，并显示出比 DDTree 和 CaDDTree 等现有技术更高的吞吐量。同时，其他研究探索了宽松的推测解码，研究速度和能力之间的权衡，并引入了 AdaptiveSD 以在 CPU 限制下实现鲁棒的、运行时自适应的推理。DSpark 是另一个框架，它将高吞吐量的并行生成…

COMMENTARY · CL_126326 · Jul 5 · 12:41

为什么GPU在AI硬件中占据主导地位，尽管存在专用替代品

尽管存在Groq的LPU和Cerebras的WSE等专用硬件，但由于巨大的经济和结构性障碍，GPU在AI领域仍然占据主导地位。这包括定制芯片开发所需的巨额资本以及匹配英伟达成熟的CUDA生态系统，还有架构变化可能导致专用硬件过时的风险。此外，英伟达持续的路线图改进以及超大规模云服务商已在GPU基础设施上投入的巨额资本，都促使他们维持现状，而不是用更便宜的替代品来颠覆它。

TOOL · CL_125236 · Jul 4 · 13:20

Trellis 2 导致用户 Mac 崩溃和设置问题

用户在 Mac 设备上运行 Trellis 2 时遇到严重困难，一位用户报告称内存使用量超过 73GB 并导致系统崩溃。另一位用户正在寻求有关在 Macbook 上设置 Trellis 的帮助，遇到了与缺少诸如 'mtldiffrast' 和 'torch' 等关键组件的发行版相关的错误。设置过程似乎很复杂，涉及终端命令以及与 macOS 的潜在兼容性问题。

TOOL · CL_125096 · Jul 4 · 10:32

开发团队解决了 GPU Pinning、LLM 元评论和备份问题

一个开发团队解决了与 GPU 编排和 LLM 集成相关的几个复杂问题。他们修复了 LiteLLM 中导致 API 基础设置被忽略的错误，确保为 Qwen3-VL 等特定模型提供专用的 GPU 轨道。该团队还解决了 Windows 上 Ollama 的问题，包括环境变量继承和 GPU 选择，最终使用 UUID 将模型固定到特定 GPU 并禁用 Vulkan 后端。此外，他们还实施了新的保护措施，以防止 LLM 的“元评论”泄露到已发布的…

TOOL · CL_124855 · Jul 4 · 07:00

新的开源工具在 Logits 层过滤 LLM 越狱

Resk-Security 发布了 resk-logits，一个开源的 Python 库，旨在通过在 Logits 层进行过滤来防止大型语言模型 (LLM) 越狱。这种方法在有害 token 生成之前进行拦截，不同于传统的在生成后扫描输出的方法。该库利用 GPU 加速的 Aho-Corasick 算法，在一毫秒内扫描超过 10,000 个不允许的模式，为 LLM 安全提供了更强大、更快速的方法。

TOOL · CL_122053 · Jul 2 · 13:31

优化 SLM 服务：AWQ、GPTQ、GGUF 和动态 LoRA

本文探讨了为企业环境优化小型语言模型（SLM）的服务，重点关注降低延迟、提高并发性和最小化成本。文章比较了三种量化格式：AWQ、GPTQ 和 GGUF，并推荐 AWQ，因为它在 GPU 上实现了准确性和速度的平衡。文章还详细介绍了如何使用 vLLM 实现动态 LoRA 服务，以有效地管理共享基础设施上多个微调模型的行为，从而减少 VRAM 使用量和计算成本。

TOOL · CL_120783 · Jul 1 · 21:09

LIFT工具将研究PDF转换为带模式引导的结构化JSON

一个教程演示了如何使用LIFT工具将研究PDF转换为结构化JSON数据。该过程包括设置GPU环境，利用4位NF4量化在内存有限的GPU上运行，并生成带有故意干扰项的合成研究报告。这种受控环境允许从文档布局中进行模式引导的特定字段提取，如标题、作者、数据集和指标。

TOOL · CL_120657 · Jul 1 · 17:44

AWS SageMaker AI 通过集成 BoltzGen 简化蛋白质设计

Amazon SageMaker AI 现已提供一个简化的平台，通过使用 BoltzGen 生成模型来加速蛋白质设计。此次集成旨在简化复杂且计算密集型（GPU 密集型）的蛋白质和肽设计过程，使其能够结合特定靶点。通过管理从配置实例到清理资源的整个计算基础设施生命周期，SageMaker AI 使研究人员能够专注于设计迭代，而不是运营开销。