实体 PCI Express

PCI Express

PulseAugur coverage of PCI Express — every cluster mentioning PCI Express across labs, papers, and developer communities, ranked by signal.

总计 · 30天

16

90 天内 16

发布 · 30天

0

90 天内 0

论文 · 30天

2

90 天内 2

层级分布 · 90 天

significant 1
research 2
tool 12
commentary 1

主题

关系

情绪 · 30 天

5 天有情绪数据

最近 · 第 1/1 页 · 共 16 条

TOOL · CL_137535 · Jul 11 · 14:23

MI50 GPU 性能：PCIe 对比 PEX8749 交换卡

Reddit 的 r/LocalLLaMA 子版块上一位用户分享了对两种 MI50 GPU 配置的性能基准测试。第一种设置使用了六个直接通过 PCIe 连接的 MI50，而第二种设置使用了一张 PEX8749 卡来管理四个 MI50，从而为另外两张卡腾出了 PCIe 插槽。在各种测试中，PEX8749 配置在 'pp' 速度上略有下降（不到 1%），但在 'tg' 速度上略有提升（高达 2.8%）。总的来说，两种设置之间的性能差异很小…
RESEARCH · CL_114568 · Jun 28 · 12:00

中国龙芯推出面向中小企业的新一代16核LoongArch服务器CPU

中国龙芯中科公司发布了其新款3C3000服务器处理器，该处理器基于LoongArch架构拥有16个核心。这款40W的芯片支持DDR4 ECC内存，并提供32个PCIe通道，定位于中小企业经济高效的通用计算工作负载。龙芯声称其性能与上一代3C5000型号相当，并且旨在支持中国的国产软硬件生态系统。
TOOL · CL_112018 · Jun 26 · 08:20

Rosewill M.2 SSD 克隆器和擦除器创纪录低价至 47 美元

Rosewill 的 M.2 SSD 克隆器和擦除器目前以 47 美元的最低价发售，为 IT 专业人士和家庭用户提供便捷的解决方案。该设备支持离线克隆和擦除 NVMe 驱动器，或通过 USB 3.2 Gen 2x2 连接到 PC 进行克隆和擦除，速度高达 20 Gbps。虽然它采用塑料外壳，但其价格实惠且功能齐全，使其成为管理存储驱动器的实用选择。
TOOL · CL_104263 · Jun 22 · 20:28

Meta 因内部数据泄露事件暂停员工追踪 AI 计划

Meta 已暂时中止一项内部 AI 培训计划，该计划追踪员工的电脑活动，包括鼠标移动和击键记录，此前发生了一次重大的数据泄露事件。该计划，名为模型兼容性计划 (MCI)，无意中将敏感的员工数据泄露给了整个公司。尽管 Meta 表示没有迹象表明存在不当的外部访问，但此次事件已引发内部强烈反对，并重新点燃了员工对先前抗议强制性监控的隐私担忧。
SIGNIFICANT · CL_103026 · Jun 21 · 23:17

AI板块蓄势待发：算力、PCIe及药物发现引领增长

36氪的多篇报道突显了对AI行业的看好，特别关注了对算力的需求。中信证券和中信建投的分析师预测，随着GLM-5.2和Kimi K2等国内AI模型能力的提升，AI算力将持续增长。报道还强调了PCIe协议和交换机在扩展GPU连接性方面的关键作用，预计PCIe交换机市场将显著增长。此外，AI的进步正在彻底改变药物发现，预计到2035年AI制药市场将达到460亿美元。
TOOL · CL_81091 · Jun 9 · 14:22

中国公司打造紧凑型V100 GPU用于AI

一家名为“GPU god”的中国公司开发了NVIDIA V100 GPU的单槽、半高PCIe版本。这张定制设计的显卡保留了V100核心的全部性能，并设计用于被动散热，同时提供更高功率的选项。16GB版本预计零售价低于220美元，另有32GB型号计划推出。
COMMENTARY · CL_78736 · Jun 8 · 20:02

用户询问本地 LLM 的双 GPU 性能

Reddit 的 r/LocalLLaMA 子版块上一位用户正在寻求关于优化本地运行大型语言模型的硬件的建议。他们目前可以在单个 16GB 显存 GPU 上运行 Q4 量化的 160 亿参数模型。该用户正在询问添加第二个 16GB GPU 是否能让他们用 320 亿参数模型达到类似的性能，或者潜在的 PCIe 带宽限制是否会导致速度变慢。
TOOL · CL_75158 · Jun 6 · 16:29

AMD B650 芯片组卡为 PC 添加 M.2 插槽和 USB 端口

采用 AMD Promontory 21 芯片组的新型扩展卡现已上市，使用户能够为其 PC 添加重要的 I/O 功能。这些卡最多可提供四个 M.2 插槽、多个 USB 端口和 OCuLink 连接器，有效扩展了系统连接性，超越了许多主板的功能。来自 WisdPi 的一张卡售价为 199 美元，包含众多端口，而来自 Minisforum 的另一张卡预计将于第三季度上市，重点关注 SSD 散热。
TOOL · CL_71693 · Jun 4 · 16:45

用户通过修复PCIe插槽瓶颈将LLM推理速度提升一倍

一位用户在构建用于本地LLM推理的多GPU设置时，发现一个配置错误的PCIe插槽造成了严重的性能瓶颈。四块RTX 3090 GPU中的一块被错误地安装在一个仅支持PCIe 2.0 x4速度的插槽中，严重限制了其带宽。在重新配置GPU以充分利用其PCIe能力后，用户观察到推理速度显著提升，Mistral 128B的性能几乎翻倍。
RESEARCH · CL_54692 · May 27 · 13:00

博通、FuriosaAI 合作推出以太网 AI 推理平台

博通和 FuriosaAI 已达成合作，共同开发一款机架级推理平台，旨在将 AI 基础设施从以 GPU 为中心的设计中解放出来。此次合作将 FuriosaAI 的处理器架构与博通的网络和 chiplet 技术相结合，为 AI 推理创建一个更节能、更具可扩展性的系统。随着这些工作负载开始超越训练需求，该计划解决了对优化推理基础设施日益增长的需求。
TOOL · CL_31915 · May 14 · 15:47

MacBook Air 通过 Linux 虚拟机获得桌面级 GPU 以进行 AI 任务

最近的一个项目探索了通过 Thunderbolt eGPU 设置将高端 NVIDIA RTX 5090 GPU 连接到 M4 MacBook Air。虽然 macOS 缺乏 Apple Silicon 上 NVIDIA GPU 的原生驱动程序，但作者成功地将 GPU 直通给 Mac 上运行的 Linux 虚拟机。这种方法利用了 Linux 对 NVIDIA 显卡和 Thunderbolt 隧道技术的支持，使 GPU 能够用于 AI 推…
TOOL · CL_24961 · May 10 · 10:50

改装的Nvidia V100服务器GPU以200美元高效运行LLM

一位YouTube博主成功地将最初为专用插槽设计的Nvidia Tesla V100服务器GPU改装成适用于消费级主板的标准PCIe卡。这次改装成本约为200美元，使得这款老一代Turing架构的GPU能够高效运行大型语言模型。在测试中，V100在AI推理的每秒令牌数方面优于RTX 3060和RX 7800 XT等新卡，并在功率受限时展现出更高的能效。
TOOL · CL_23925 · May 9 · 08:00

专有GPU转PCIe适配器可实现更便宜的本地LLM

一篇Hackaday的最新文章详细介绍了一种将专有总线GPU集成到标准PCIe插槽的方法，使其可用于本地LLM部署。这种方法为有兴趣自行托管生成式AI模型的个人提供了更经济实惠的选择。该技术涉及改造专用硬件以绕过典型的兼容性问题，从而降低了AI爱好者的入门门槛。
RESEARCH · CL_11722 · May 1 · 04:00

RoundPipe 实现了在消费级 GPU 上高效进行 LLM 微调

研究人员开发了 RoundPipe，这是一种新的流水线调度方法，旨在提高在消费级 GPU 上微调大型语言模型的效率。该方法通过以循环方式动态调度设备上的计算阶段来解决现有方法的局限性，从而有效地消除流水线气泡并提高吞吐量。评估显示，与当前基线相比，速度有了显著提升，使得在单台服务器上微调非常大的模型成为可能。RoundPipe 也作为一个开源库提供。
SIGNIFICANT · CL_09990 · Apr 30 · 01:51

英韧科技吴资宁谈AI SSD如何将闲置算力转化为有效算力。

在AI时代，存储正从单纯的数据载体向影响算力的关键环节转变。英韧科技董事长吴资宁指出，AI SSD通过优化数据组织和调度，是实现闲置算力向有效算力转化的关键。公司正开发差异化的AI SSD解决方案，包括面向训练的Dongting-N3、面向容量敏感场景的N3Q以及面向低延迟推理的N3X，以满足AI工作负载的多样化需求。
RESEARCH · CL_05008 · Apr 23 · 20:12

新的架构和框架针对长上下文的LLM服务瓶颈

研究人员开发了新的架构和技术，以解决服务具有长上下文的大型语言模型（LLMs）时日益增长的延迟和能耗挑战。一种名为AMMA的方法提出了一种以内存为中心的多芯片设计，用HBM-PNM立方体取代GPU计算芯片，以提高内存带宽，与NVIDIA H100相比，在延迟和能耗方面实现了显著降低。另一个框架SPIN将稀疏注意力算法与分层KV存储相结合，通过优化GPU和CPU内存之间的KV缓存管理来提高吞吐量并减少首次令牌生成时间。此外，LayerB…