graphics processing unit

开发者为扭蛋游戏构建定制 Rust 机器学习模拟器

一位开发者创建了 Talos-XII，一个用于游戏《明日方舟：终末地》扭蛋系统的命令行模拟器。该模拟器使用了一个定制的自动微分引擎和一小型神经网络栈，包括 MLP、Dueling DQN 和 PPO，来模拟游戏的不确定性和决策制定，而不是依赖静态概率表。该项目完全用 Rust 构建，不依赖 PyTorch 或 TensorFlow 等外部机器学习框架，并支持运行时 SIMD 分派以优化跨不同 CPU 架构的性能，并可选支持 GPU。开…

COMMENTARY · CL_134452 · Jul 9 · 16:15

超大规模、主权人工智能和量子计算重塑企业战略

超大规模基础设施、主权人工智能和量子计算正在融合，重新定义企业战略和地缘政治力量。数据中心已从单纯的存储演变为活跃的计算中心，大量全球资本正涌入人工智能基础设施，尤其是GPU。这一转变要求组织进行战略性重新评估，因为计算能力已成为企业战略和竞争力的基础要素。各国政府也在优先发展主权人工智能计划，大力投资国内数据中心和人工智能模型，以确保数字独立和国家安全。

RESEARCH · CL_134058 · Jul 9 · 12:21

法国接近结束对NVIDIA的反垄断调查，可能面临高达全球年收入10%的罚款 · 跟踪1个来源

法国竞争管理局的反垄断调查已接近尾声，该调查于2023年启动，针对NVIDIA在全球GPU和人工智能云计算市场的垄断地位。如果被认定违反竞争法，NVIDIA可能面临高达其全球年收入10%的罚款。另外，OpenAI的首席未来学家已宣布离职。

TOOL · CL_133678 · Jul 9 · 07:02

量化技术将LLM缩小75%以供本地使用，平衡大小与质量

量化是将大型语言模型（LLM）缩小并降低其内存需求的关键技术，使其能在消费级硬件上使用。该过程涉及使用更少的比特（例如4位或8位）来表示模型参数，可以将模型大小缩小高达75%。然而，朴素的量化可能会因异常权重和累积误差而降低模型质量，这促使了GPTQ和AWQ等更复杂方法的出现，这些方法使用小型数据集校准量化以最小化误差。GGUF等格式（与llama.cpp一起使用）为CPU和混合推理提供了各种量化级别。

TOOL · CL_133608 · Jul 9 · 04:00

InferNet利用GPU配置文件进行DNN架构推断

研究人员开发了InferNet，一种通过分析聚合GPU配置文件来推断深度神经网络（DNN）架构的新颖方法。该技术绕过了复杂、细粒度数据分析的需求，而是利用了GPU内核调用和内存事件等粗粒度系统级信息。InferNet能够准确预测通用架构家族和特定变体，在跨不同AI框架、DNN类型和硬件平台的评估中实现了100%的模型提取准确率。

RESEARCH · CL_133052 · Jul 9 · 00:48

我国首座海上风电换流站启运；AI驱动PCB升级

我国首个海陆一体化海上风电直流输电工程迎来重要里程碑，核心枢纽——海上换流站已启动运输，预计一周内抵达广东阳江。与此同时，一份研究报告强调，由AI驱动的算力需求对印刷电路板（PCB）行业产生了重大影响。AI服务器向GPU/ASIC集群的转变正在提升PCB的技术要求，推动了高层数、高密度互连板的增长，并带动了材料和制造工艺的进步。

TOOL · CL_132951 · Jul 8 · 23:47

SambaNova利用旧NVIDIA GPU实现每秒850个token的AI处理

SambaNova Systems已开发出一项策略，旨在最大限度地利用旧的NVIDIA GPU，实现每秒850个token的处理速度。该方法侧重于充分利用现有硬件，而不是仅仅依赖最新的技术进展。该公司的努力旨在通过创新部署不太新的技术来提供高效的AI计算。

TOOL · CL_132644 · Jul 8 · 16:17

RunPod GPU性能差异影响AI训练成本

Reddit的r/StableDiffusion子版块上一位用户报告称，在使用RunPod的GPU实例时遇到了性能不一致的问题。该用户观察到，即使使用相同的GPU型号（RTX 5090）并在不同日期使用相同的设置，模型训练的每秒迭代次数也存在显著差异。这种不一致性影响了为AI模型开发租用GPU时间的成本效益。

SIGNIFICANT · CL_132281 · Jul 8 · 13:29

魔芯MoWorld发布国产NPU实时交互世界模型，成本降70%

魔芯科技（MoWorld）发布了首个完全基于国产NPU的实时交互世界模型MoWorld，该模型能够以超过50FPS的速度运行，同时将部署成本降低至同等GPU方案的30%。MoWorld能够理解空间、预测世界状态，并支持用户进行实时交互，适用于游戏娱乐、具身智能、自动驾驶、影视创作以及数字孪生等多个行业。此前，魔芯科技已获得包括华为哈勃投资和联想在内的多家机构的亿元美金融资。

TOOL · CL_132186 · Jul 8 · 12:34

LLM推理防火墙在生成前阻止不安全令牌

resk-secure 开发了一种名为 LLM 推理防火墙的新方法，旨在通过阻止生成不安全令牌来增强大型语言模型的安全性。该方法在 logits 层面运行，在令牌采样之前修改模型的输出概率。通过将安全规则编译成 GPU 兼容的位掩码，防火墙可以有效地将禁止的令牌（包括可能跨越令牌边界绕过标准过滤器的令牌）归零。

TOOL · CL_131838 · Jul 8 · 09:49

新库将 GPU 加速的惩罚应用于 LLM logits 以增强安全性

一个名为 ReskLogits 的新开源库已被开发出来，通过在 token 采样发生之前的 logits 层面进行干预来增强 LLM 的安全性。这种方法旨在通过实时对危险 token 应用惩罚来防止有害内容的生成，从而使攻击者更难利用提示注入漏洞。该库提供了一个 GPU 加速的 Aho-Corasick 算法，用于高效的模式匹配，并支持多级过滤，允许根据禁用短语的严重程度进行可配置的惩罚。

RESEARCH · CL_133231 · Jul 8 · 09:11

新框架实现快速、准确的CT身体成分分析

研究人员开发了一种新的分层分割框架，旨在从CT扫描中准确高效地分析身体成分。该方法解决了多源数据异质性和高计算需求带来的挑战。通过采用动态间隔和各向异性打补丁等技术，以及分组推理机制和拓扑感知不对称重采样，该框架在显著减少内存使用和处理时间的同时实现了高精度，使其适用于在标准CPU工作站上部署。

TOOL · CL_131569 · Jul 8 · 04:00

BitLogic框架统一了FPGA原生神经网络的训练

研究人员开发了BitLogic，一个统一的框架，旨在标准化利用布尔逻辑运算而非传统乘加运算的梯度下降型神经网络的训练和评估。该框架允许将单个训练好的检查点部署到GPU、FPGA和ASIC上，解决了当前训练流水线和硬件报告惯例的碎片化问题。通过系统地分析设计空间，BitLogic识别出一种最优配置，在准确性和效率方面均优于以往的方法，在FPGA上实现了比GPU显著更高的吞吐量和更低的能耗。

COMMENTARY · CL_131183 · Jul 8 · 03:34

LLM 依赖 GPU 进行大规模并行计算，而非 CPU

像 ChatGPT、Gemini 和 Claude 这样的大型语言模型 (LLM) 由于巨大的计算需求，在运行过程中需要图形处理单元 (GPU)。与为逻辑任务设计并顺序处理操作的中央处理单元 (CPU) 不同，GPU 能够同时执行数百万次计算，因此非常适合构成 LLM 核心的矩阵乘法和其他数学运算。该过程包括将文本分词为数字，将这些词元转换为数值嵌入，然后将其输入 GPU 进行模型架构内的复杂计算，例如注意力机制和前馈网络。

TOOL · CL_131113 · Jul 8 · 02:17

GPUStack 推出共享 GPU 集群使用追踪功能

GPUStack 推出了新的使用（Usage）功能，旨在提供对共享 GPU 集群内资源消耗的详细洞察。此功能旨在回答关于计算资源在哪里被使用、由谁使用以及用于哪些模型的关键问题。它提供了对 token 使用量、GPU/CPU 实例运行时间和存储的可见性，并能够按用户、API 密钥和模型类型细分使用情况，从而促进成本分配和资源管理。

COMMENTARY · CL_131015 · Jul 8 · 00:03

中信证券：深海油气开发带动FPSO需求上升，AI驱动PCB升级

中信证券的一份报告指出，由于常规储量不足，对深海油气勘探的关注度日益提高，导致浮式生产储卸油装置（FPSO）的需求激增。这一趋势正为FPSO制造业创造一个有利的周期，国内公司有望受益于其生产能力和成本优势。同时，报告强调，人工智能应用对计算能力的需求不断增长，正在显著推动PCB（印刷电路板）行业的发展，需要升级到更高层数、更高密度和更高性能的材料及制造工艺。

COMMENTARY · CL_131017 · Jul 7 · 23:57

AI算力驱动高端PCB需求，带动设备及材料板块

中信证券的最新报告强调，随着AI算力扩张，印刷电路板（PCB）需求显著激增。这种需求正推动PCB技术升级，要求更高的层数、更高的密度和改进的材料，以支持GPU/ASIC集群等先进架构。高端PCB的趋势也催生了对制造设备和相关耗材的进步需求，为PCB行业带来了新的机遇。

RESEARCH · CL_131413 · Jul 7 · 14:34

新的OrchardBench模拟基准加速农业机器人研究

研究人员开发了OrchardBench，一个新的模拟基准，旨在推进农业机器人技术，特别是苹果采摘等任务。该基准通过物理精确模拟苹果树而著称，集成了真实的树枝柔韧性、果实脱落和树叶遮挡，所有这些都在GPU上并行运行。该系统旨在通过提供一个可重复且经济高效的环境来开发和测试自主采摘系统，从而克服现实世界现场实验的局限性。

RESEARCH · CL_129047 · Jul 7 · 04:00

新流水线优化LLM适配器服务的GPU效率 · 跟踪2个来源

arXiv上的一篇新论文详细介绍了一个数据驱动的流水线，旨在优化大型语言模型（LLM）适配器服务的GPU效率。该流水线使用数字孪生和机器学习模型来预测性能并确定适配器放置，目标是通过实现接近峰值的利用率来最大限度地减少GPU资源需求。实验表明，该方法可以将目标工作负载所需的GPU数量平均减少60%。另外，一篇dev.to文章讨论了在笔记本电脑上本地运行LLM的局限性，强调了由系统RAM决定的集成GPU（iGPU）显存上限如何影响模型性…

RESEARCH · CL_128954 · Jul 7 · 04:00

图神经网络应用于优化和物理学问题 · 跟踪2个来源

研究人员正在探索图神经网络（GNNs）在组合优化和理论物理学等传统角色之外的应用。一项研究表明，GNNs可以作为欧几里得旅行商问题的有效启发式方法，通过一次前向传播学习生成完整的路径，计算成本极低。另一篇论文将GNNs（包括图Transformer）应用于高能物理学中的大规模图分类问题，取得了高精度，并提供了显著的数据压缩以加快计算速度。