实体 Nvidia L4

Nvidia L4

PulseAugur coverage of Nvidia L4 — every cluster mentioning Nvidia L4 across labs, papers, and developer communities, ranked by signal.

总计 · 30天

4

90 天内 11

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 4

层级分布 · 90 天

主题

关系

情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 11 条

TOOL · CL_156560 · Jul 22 · 04:00

新框架以更低的成本优化硬件以实现对抗鲁棒性

开发了一个新框架，以帮助优化对抗鲁棒机器学习系统的硬件和超参数选择。该框架使用加速失效时间（AFT）模型来量化硬件选择、批次大小和训练轮次等因素对模型生存时间的影响。实验表明，与V100相比，Nvidia L4 GPU在更低的成本下显著提高了对抗生存时间，这表明昂贵的硬件不总是提高鲁棒性所必需的。研究还发现，推理延迟比训练时间或硬件配置更能预测对抗鲁棒性。
TOOL · CL_113993 · Jun 27 · 21:05

Gemma 2 9B FP8 量化显示预填充延迟但生成速度更快

对自托管 Gemma 2 9B 模型（特别是其 FP8 量化变体）的基准测试评估，在与 Frontier API 相比时揭示了权衡。虽然 FP8 量化由于预填充期间的反量化开销，显著增加了长而复杂提示的首次令牌时间（TTFT），但它在中间长度生成序列的端到端延迟方面提供了实质性收益。研究发现，对于简历生成等特定的单轮任务，9B 参数模型即使经过量化，也保持了高保真度和语义准确性，表明其在某些生产工作负载中的可行性。
TOOL · CL_106412 · Jun 21 · 14:34

Gemma 4 12B 模型部署在带有 NVIDIA L4 GPU 的 Cloud Run 上

本文详细介绍了在配备 NVIDIA L4 GPU 的 Google Cloud Run 实例上部署 12B Gemma 4 QAT 模型的指南。文章重点介绍了在特定云基础设施设置中实施推测解码以提高模型效率和性能。
TOOL · CL_94638 · Jun 16 · 13:17

Gemma 4 模型部署与量化性能探索

该集群详细介绍了 12B Gemma 4 模型（包括其量化感知训练 (QAT) 变体）的部署和性能。文章提供了在 Google Cloud Run 和 Compute Engine 上部署 Gemma 4 的分步指南，利用了 Blackwell 6000 和 L4 GPU 等 NVIDIA 硬件。一篇 Reddit 帖子指出，Gemma 4 QAT 在 KV 缓存量化方面似乎表现明显更好，这表明 Q8_0 量化可能再次可行。
TOOL · CL_81394 · Jun 9 · 17:22

Gemma 模型部署到带有 NVIDIA L4 GPU 的 Google Cloud Run

这一系列文章详细介绍了将 Google 的 Gemma 模型（特别是 Gemma 4 版本，包括 12B 和 26B 参数变体）部署到带有 NVIDIA L4 GPU 的 Google Cloud Run 上的过程。指南涵盖了规划、调试和经验教训，并利用了 MCP 标签和 Antigravity CLI 等工具来简化工作流程。重点在于实际实施以及在云托管 GPU 环境中克服权衡。
TOOL · CL_62664 · Jun 1 · 05:50

Rust 引擎在廉价虚拟机上流式传输 Mixtral 8x7B

一款名为 MER 的新 Rust 推理引擎能够从 NVMe 存储高效地流式传输大型语言模型（如 Mixtral 8x7B）到性能较低且更便宜的虚拟机上。这种方法通过按需加载模型专家、将常用模型缓存到 RAM 中，避免了对高端 GPU 的需求，并在每小时 0.40 美元的虚拟机上实现了 3.32 tps 的速度。该引擎展示了 15.56% 的缓存命中率，目前受 CPU 限制，并计划集成 GPU 推理以获得进一步的性能提升。
TOOL · CL_58421 · May 28 · 15:53

Gemma 4 模型部署指南涵盖云端和本地设置

这一系列文章详细介绍了 Gemma 4（一种大型语言模型）在各种硬件和云环境中的部署。指南涵盖了在配备 NVIDIA L4 GPU 的 Google Cloud Run 上设置 Gemma 4，以及在 Intel i7 处理器等消费级硬件上的本地部署。该过程利用了一套工具，包括 Python MCP、Cloud Run 和 Antigravity CLI，以实现简化的实施。
TOOL · CL_20586 · May 7 · 04:00

新的DEEP-GAP研究比较了NVIDIA T4和L4 GPU的推理性能

一项新的研究论文介绍了DEEP-GAP，一种用于评估GPU推理性能的方法。该研究系统地比较了NVIDIA T4和L4 GPU在各种深度学习模型和精度模式下的表现。结果表明，L4 GPU的吞吐量显著高于T4，尤其是在较小的批处理大小下，而INT8等降低精度的模式相比CPU基线提供了显著的性能提升。
TOOL · CL_19446 · May 6 · 13:58

AMD EPYC CPU 在 LLM 和 TTS 推理工作负载上表现出竞争力

Leaseweb 近期的一项分析对 AMD EPYC 9334 CPU 在大型语言模型 (LLM) 和文本转语音 (TTS) 推理工作负载上的性能进行了基准测试。研究表明，虽然 GPU 提供更高的吞吐量，但 CPU 可以是推理的经济高效且可预测的选择，尤其是在考虑延迟和每查询成本等因素时。基准测试突显了量化的影响，Q4 模型在 CPU 上的吞吐量明显优于 FP16，并且还与参考 Nvidia L4 GPU 比较了首次令牌时间 (TTF…
TOOL · CL_16155 · May 5 · 04:00

SURGE 系统优化 GPU 编码以生成大规模文本嵌入

研究人员开发了 SURGE，一个旨在提高 GPU 上文本嵌入生成效率的新系统。SURGE 通过采用流式 SuperBatch 方法解决了处理大量小数据分区的瓶颈问题，与传统的固定批次方法相比，显著降低了内存使用量并加快了首次输出时间。该系统已投入生产使用，处理了超过 8 亿条文本，在内存需求显著降低的情况下，首次输出时间快了 68 倍。
RESEARCH · CL_08360 · Apr 27 · 23:58

新方法优化易崩溃搜索空间中的机器学习部署

研究人员开发了一种名为热预算退火（TBA）的新方法，用于优化在挑战性环境中部署的机器学习模型。该方法解决了许多配置崩溃或违反约束的问题，这是层级搜索空间中常见的问题。TBA首先探索可行区域，然后使用模型指导的优化，并结合试用超时和子空间黑名单等机制来处理硬件故障。该方法在合成基准测试和实际GPU部署上进行了测试，显示出改进的模型发现能力并减少了资源浪费。