AI accelerator · PulseAugur

Google TPU 获得 Anthropic 青睐，披露新架构 · 跟踪 4 个来源

SemiAnalysis 报道了 Google 张量处理单元 (TPU) 在人工智能模型训练市场份额的增长，重点介绍了 Anthropic 等外部实体为其 Claude 模型发布日益增长的采用。该分析详细介绍了即将推出的 TPU 架构，包括具有用于大规模扩展和降低延迟的 BroadFly 拓扑的 TPUv8i，以及利用不同环面配置以适应不同 Pod 大小的 TPUv7 Ironwood 变体。TPU 在 Google 内部使用之外的可…

SIGNIFICANT · CL_132281 · Jul 8 · 13:29

魔芯MoWorld发布国产NPU实时交互世界模型，成本降70%

魔芯科技（MoWorld）发布了首个完全基于国产NPU的实时交互世界模型MoWorld，该模型能够以超过50FPS的速度运行，同时将部署成本降低至同等GPU方案的30%。MoWorld能够理解空间、预测世界状态，并支持用户进行实时交互，适用于游戏娱乐、具身智能、自动驾驶、影视创作以及数字孪生等多个行业。此前，魔芯科技已获得包括华为哈勃投资和联想在内的多家机构的亿元美金融资。

TOOL · CL_130825 · Jul 7 · 21:10

AMD AI开发套件驱动200亿参数模型，挑战NPU认知

AMD的新AI开发套件能够运行一个拥有200亿参数的模型，挑战了人们将NPU视为仅仅是装饰性组件的看法。该套件展示了显著的性能能力，尽管其具体的优势和劣势仍在分析中。

RESEARCH · CL_131422 · Jul 7 · 12:41

MoWorld：用于实时交互的闪电世界模型

研究人员开发了MoWorld，一个具有成本效益的闪电世界模型，专为自主系统的实际实时交互而设计。该模型利用了3D原生数据引擎和端到端框架，用于数据生成、预训练、蒸馏和高效推理。MoWorld在神经网络处理器（NPUs）上可达50 FPS，推理成本显著低于现有模型，适合大规模部署。

SIGNIFICANT · CL_126688 · Jul 5 · 20:06

Anthropic 全球招聘并探索与三星合作制造定制 AI 芯片

Anthropic，以其 AI 助手 Claude 而闻名，正在积极招聘包括研究、工程、政策、运营和业务在内的广泛职位。该公司由前 OpenAI 研究员创立，强调 AI 安全，并提供有竞争力的薪酬、股权和福利，包括为国际候选人提供签证担保。另外，据报道 Anthropic 正在与三星讨论开发定制 AI 芯片，旨在利用三星的半导体专业知识来优化机器学习硬件，从而提高处理速度和能源效率。

RESEARCH · CL_127595 · Jul 2 · 03:17

新研究探讨 LLM 效率，从移动推理到训练稳定性

研究人员正在探索各种方法来提高大型语言模型 (LLM) 的效率和性能。一种名为“Thinking Seeds”的方法使用历史检查点来提高 LLM 中强化学习的稳定性和探索性。另一个重点是优化移动设备上的 LLM 推理，研究人员分析了神经处理单元 (NPU)、中央处理单元 (CPU) 和图形处理单元 (GPU) 中的瓶颈，以降低能耗。此外，还在开发“Full-Stack FP4”等技术，以使用 4 位精度实现稳定的 LLM 预训练，而“…

SIGNIFICANT · CL_119971 · Jul 1 · 08:07

人工智能计算不可预测的电力需求给全球电网带来压力

人工智能计算的蓬勃发展给全球电网带来了前所未有的压力，这已不仅仅是能源消耗问题，更是电网稳定性问题。人工智能工作负载，特别是训练的同步性以及推理的不可预测模式，会导致电力需求快速且局部化波动，给传统电网管理带来挑战。这种动态负载变化与可再生能源的间歇性不同，需要新的电网规划和运营方法，有人建议转向专门的核能为数据中心供电，以确保可持续扩展。

SIGNIFICANT · CL_116702 · Jun 29 · 21:00

英伟达市场份额因竞争对手和芯片生产问题而受到侵蚀

据报道，英伟达的市场份额正被 Trainium、TPU 和 AMD 芯片等竞争对手侵蚀，影响了其在 AI 加速器市场的统治地位。这种侵蚀部分是由于制造执行问题，导致其在 GTC 2026 发布三个月后取消了 4 die Rubin Ultra 芯片。新的、更小的“Rubin Ultra”预计性能将远低于最初的设计。

COMMENTARY · CL_113903 · Jun 27 · 21:10

Antigravity SDK 探索与工程师角色讨论出现 · 跟踪 4 个来源

Antigravity SDK 正被探索作为构建自定义反重力系统的组件，并且正在努力使其文档与源代码保持一致。另外，关于工程师在人工智能时代的不断变化的角色的讨论正在出现，一些人质疑他们的必要性。此外，使用 SSD 和 NPU 设置 Raspberry Pi 5 带来了意想不到的挑战。

RESEARCH · CL_108353 · Jun 24 · 07:45

中国LineShine超级计算机挑战GPU主导地位

由于美国对先进GPU和AI加速器的出口限制，中国可能已经开发出世界上最快的超级计算机LineShine，仅使用了传统的CPU。这一发展可能会促使西方国家重新考虑其对以GPU为中心的超级计算方法的依赖。

SIGNIFICANT · CL_104265 · Jun 22 · 20:13

Groq在与NVIDIA达成知识产权协议后融资6.5亿美元，转向新云计算业务 · 追踪4个来源

AI芯片制造商Groq在一轮新的融资中获得了6.5亿美元，这距离与NVIDIA达成一项重要协议大约有六个月时间。该协议涉及NVIDIA授权Groq的知识产权并挖走包括创始人兼首席执行官在内的关键人员。此后，Groq调整了战略，专注于其新云计算业务，并积极招聘新高管以填补空缺并推动未来增长。

TOOL · CL_101841 · Jun 20 · 11:49

高通 NPU 编译器被逆向工程以优化边缘 AI

一位研究人员逆向工程了高通神经网络处理单元 (NPU) 的编译器，以更好地理解和优化边缘 AI 部署。研究结果表明，该编译器使用复杂的 MILP 求解器进行 VTCM 放置，并能自动改变权重精度以管理内存压力。这项详细分析，包括经验参数扫描和使用 Claude Code 进行的代码分析，为高通 NPU 上先前未被记录的内存瓶颈和编译器行为提供了关键见解。

TOOL · CL_96230 · Jun 17 · 04:00

新的微调方法使深度神经网络适应ReRAM内存计算

研究人员开发了一种新的微调方法，用于将深度神经网络适应ReRAM基内存计算硬件的部署。该方法解决了ReRAM固有的I-V非线性和保持误差的挑战，这些挑战通常需要从头开始进行计算成本高昂的训练。所提出的技术将这些硬件非理想因素整合到微调过程中的正则化损失中，显著降低了开销，同时在包括ImageNet图像分类和SQuAD v2问答在内的各种模型和任务中保持了高精度。

COMMENTARY · CL_94644 · Jun 16 · 12:24

新报告发现：到2040年，会计行业将发生变革

AICPA和CIMA的一份新报告，基于数千名全球专业人士的意见，表明到2040年，会计行业必须从历史分析转向未来预测。这种转变是由技术进步（尤其是生成式AI）、人口结构变化和不断变化的监管环境共同驱动的。该倡议强调了对包括数据科学和战略思维在内的新技能的需求，并提议通过培训计划为专业人士应对这些变化做好准备。

SIGNIFICANT · CL_92290 · Jun 15 · 16:00

Tensordyne 发布对数数学 AI 芯片，号称功率效率提升 17 倍

初创公司 Tensordyne 推出了利用对数数学提高效率的新型 AI 加速器。这种将乘法重写为加法的方法声称与 Nvidia 的 GB300 机架相比，每瓦性能提高了 17 倍。该系统采用其“Napier Processor”，集成了快速内存层和 systolic array，专为推理任务设计。虽然 Nvidia 之前曾探索过对数数学，但 Tensordyne 似乎克服了之前的实现挑战，其系统将于今年晚些时候开始发货。

TOOL · CL_90162 · Jun 14 · 13:00

微软在独立 GPU 上测试 Copilot+ AI，将访问范围扩展到 NPU 之外

据报道，微软正在测试其 Copilot+ AI 功能在独立 GPU 上的运行，而非仅依赖 NPU。此举有望拓宽 Windows PC 上 AI 功能的访问范围。这项实验性功能可通过 Windows 应用 SDK 提供给 Insider 用户，允许 Phi Silica 等 AI 模型在 NVIDIA RTX GPU 上运行。此举旨在将 Windows AI 功能的用户群扩展到配备 NPU 的设备之外，以应对 AI PC 采用率低于预期和市场挑战。

TOOL · CL_89878 · Jun 14 · 07:00

AMD Lemonade LLM 服务器利用 NPU 加速 Ryzen AI 芯片

AMD 发布了 Lemonade v10.6，这是一个开源 LLM 服务器，旨在利用其 Ryzen AI 300 和 400 系列芯片中 NPU 的加速功能。该服务器提供兼容 OpenAI 的 API，并集成了图像生成、语音转文本和文本转语音等功能。虽然 Lemonade 通过利用 NPU 进行提示处理和 iGPU 进行令牌生成，在兼容的 AMD 硬件上提供了优化性能，但对于拥有 NVIDIA GPU 等其他硬件的用户来说，由于 Ol…

SIGNIFICANT · CL_89189 · Jun 13 · 14:12

AMD推出Ryzen AI Halo台式机挑战Nvidia DGX Spark

AMD已推出其Ryzen AI Halo开发者平台，这是一款旨在与Nvidia的DGX Spark竞争的紧凑型AI工作站。AMD系统的售价为3999美元，低于DGX Spark目前的售价4699美元，并提供Windows 11原生支持，这是Nvidia仅限Linux的产品所缺乏的功能。Ryzen AI Halo搭载Ryzen AI Max+ 395处理器，包括128GB统一内存、一个具有50 TOPS的专用NPU以及板载RDNA 3.5图形。

RESEARCH · CL_78951 · Jun 8 · 23:17

Google 委托英特尔生产 300 万枚 AI 芯片，目标 2028 年交付

据报道，Alphabet 旗下的 Google 已委托英特尔为其生产超过 300 万枚定制的 Tensor Processing Units (TPUs)，目标在 2028 年前交付。这一重大订单凸显了 Google 多元化芯片生产并利用英特尔制造能力的战略。此举也可能预示着人工智能硬件半导体供应链格局的变化。

TOOL · CL_67459 · Jun 2 · 01:00

Sixfab 发布适用于 Raspberry Pi 5 的 AI HAT+，提供 25 TOPS 算力

Sixfab 推出了 AI HAT+，这是一款适用于 Raspberry Pi 5 的 NPU 加速器，价格约为 100 美元。该 HAT 通过 PCIe 和 GPIO 连接，设置简单，可在 15 分钟内自动识别 NPU。它支持 ONNX 模型，并包含一个“Sixfab Model Zoo”可立即使用，在 8GB Raspberry Pi 5 上可实现 30-35 FPS 的 YOLOv8n 对象检测。虽然目前专注于图像 AI 且不支…