实体 Nvidia A100

Nvidia A100

PulseAugur coverage of Nvidia A100 — every cluster mentioning Nvidia A100 across labs, papers, and developer communities, ranked by signal.

总计 · 30天

16

90 天内 16

发布 · 30天

0

90 天内 0

论文 · 30天

8

90 天内 8

层级分布 · 90 天

significant 1
research 7
tool 8

主题

情绪 · 30 天

7 天有情绪数据

最近 · 第 1/1 页 · 共 16 条

TOOL · CL_128844 · Jul 7 · 04:00

面向FPGA的新型Transformer架构实现高压缩率

研究人员开发了ELiTeFormer，这是一种新颖的Transformer模型架构，专门为在现场可编程门阵列（FPGA）上高效部署而设计。该架构统一了混合线性注意力与超低精度三元线性投影，实现了显著的模型权重和KV缓存压缩。与部署在硬件上的现有模型（如LLaMA 3）相比，ELiTeFormer在准确性方面具有竞争力，并在延迟和能效方面提供了实质性改进。
RESEARCH · CL_125765 · Jul 5 · 02:30

北京大学发布世界首个大脑速度神经动力学芯片 · 跟踪到2个来源

北京大学的研究人员与中国科学院合作，开发出了世界首个神经动力学芯片。该新型芯片利用相变忆阻器模仿大脑般的处理速度，实现了2.12毫秒的延迟。在脑模型任务中，该芯片比NVIDIA A100 GPU的速度提升高达478倍。
RESEARCH · CL_127595 · Jul 2 · 03:17

新研究探讨 LLM 效率，从移动推理到训练稳定性

研究人员正在探索各种方法来提高大型语言模型 (LLM) 的效率和性能。一种名为“Thinking Seeds”的方法使用历史检查点来提高 LLM 中强化学习的稳定性和探索性。另一个重点是优化移动设备上的 LLM 推理，研究人员分析了神经处理单元 (NPU)、中央处理单元 (CPU) 和图形处理单元 (GPU) 中的瓶颈，以降低能耗。此外，还在开发“Full-Stack FP4”等技术，以使用 4 位精度实现稳定的 LLM 预训练，而“…
TOOL · CL_106649 · Jun 22 · 17:13

Gemma 12B 模型部署在 Azure Container Apps 上，使用 NVIDIA A100

本文详细介绍了在 Azure Container Apps 上部署 Gemma 12B 模型的分步指南，利用 NVIDIA A100 GPU 提升性能。该指南侧重于在无服务器环境中的实际实现和调试。
TOOL · CL_103801 · Jun 22 · 12:53

DeepSeek-R1 LLM 集成到俄罗斯 ARM64 服务器和 NVIDIA A100

一家俄罗斯公司 E-Flops 成功将 DeepSeek-R1 大型语言模型集成到一台配备国产 ARM64 处理器和 NVIDIA A100 GPU 的服务器上。由于需要在隔离的安全环境中运行，这使得本地部署 LLM 而非基于云的解决方案成为一项特别的挑战。该公司分享了他们的过程和结果，强调了这种设置的非平凡性。
RESEARCH · CL_106564 · Jun 21 · 08:48

新的 KV 缓存压缩技术提升大语言模型推理性能 · 跟踪 9 个来源

多篇研究论文探讨了优化大语言模型（LLM）服务中的键值（KV）缓存的新技术，以解决内存和性能瓶颈。这些方法包括量化、剪枝、合并和频率引导压缩，旨在减少内存使用并提高长上下文工作负载的推理速度。研究评估了这些技术在各种基准测试和模型上的表现，强调了压缩率、任务质量和系统性能之间的权衡，并建议根据工作负载选择压缩策略。
TOOL · CL_99815 · Jun 19 · 02:00

Gemma 12B 模型部署在 Azure Container Apps 上，使用 NVIDIA A100

本文提供了在 Azure Container Apps 上部署 Gemma 12B 模型的分步指南，利用 NVIDIA A100 硬件。该指南侧重于无服务器执行的部署过程调试。
RESEARCH · CL_93236 · Jun 16 · 04:00

新的神经网络架构应对复杂的科学计算问题 · 跟踪 8 个来源

研究人员正在开发新颖的神经网络架构来求解复杂的偏微分方程 (PDE) 和建模动力学系统。这包括用于离子传输的面向结构的随机神经网络 (SO-RaNN)，用于具有已知图结构的_时间序列_预测的_信息_神经_控制_微分方程 (INDEQS)，以及用于高保真 PDE 解的_启动器-迭代器_神经算子 (SINO)。此外，还提出了正交正则化 (OrthoReg) 来通过防止组件之间的重叠来改进混合符号-神经模型，而其他工作则探索了现代神经网络架…
TOOL · CL_54717 · May 27 · 12:58

Triton MoE kernel 在 AMD 和 NVIDIA 上实现高性能

一个新实现的、完全用 Triton 编写的 Fused Mixture-of-Experts (MoE) dispatch kernel，其性能达到了 Stanford 的 Megablocks 库的 89-131%。该 kernel 尤其值得注意的是，无需任何代码修改即可在 AMD MI300X 硬件上运行。主要优化在于融合了 gate 和 projection 操作，通过将中间结果保留在寄存器中，显著减少了全局内存流量。
SIGNIFICANT · CL_48619 · May 25 · 07:02

NyayAI推出印度法学AI法律助手

NyayAI是一个由AI驱动的法律情报平台，旨在让印度14亿公民能够便捷且经济地获取法律信息。该平台通过为律师和公民提供导航复杂法律文本的工具，解决了印度超过5000万起悬而未决的案件这一关键问题。与经常出现幻觉或缺乏法律深度的通用AI模型不同，NyayAI从头开始构建，拥有一个精选的印度法律文件语料库，提供精确检索、摘要和基于引用的答案。
RESEARCH · CL_48867 · May 21 · 21:46

ModeSwitch-LLM 提升单GPU LLM推理效率

研究人员开发了ModeSwitch-LLM，这是一种轻量级的控制器，旨在提高单个GPU上大型语言模型推理的效率。该系统根据工作负载特征，动态地将请求路由到各种推理模式，包括量化、推测和混合配置。在Meta-Llama-3.1-8B-Instruct上的评估表明，与标准的FP16相比，延迟速度提高了2.10倍，每token的能耗降低了51.7%，同时保持了近乎等效的准确性。
RESEARCH · CL_42791 · May 20 · 00:33

麻将强化学习模拟器 Mahjax 在 GPU 上达到每秒 200 万步

研究人员开发了 Mahjax，一个用于复杂日本麻将（Riichi Mahjong）游戏的新型 GPU 加速模拟器，该模拟器使用 JAX 实现。该工具旨在促进强化学习研究，特别是让代理从零开始学习，而不是依赖人类对局数据。Mahjax 实现了高吞吐量，在多块 GPU 上每秒可处理多达 200 万步，并已通过训练代理以提高其性能得到验证。
TOOL · CL_34912 · May 16 · 18:50

开发者为语音AI优化vLLM以实现高并发

一位开发者详细介绍了他们为在生产语音AI系统中处理高并发而优化vLLM的过程。该设置利用了一个三节点GPU集群，配备NVIDIA A4500和A100显卡，用于服务一个基于Qwen的模型。此优化旨在提高AI服务的效率和吞吐量。
RESEARCH · CL_07063 · Apr 28 · 04:00

新的GPU框架加速复杂系统的量子态计算

研究人员开发了QiankunNet-cuSCI，一个新颖的框架，通过GPU完全加速NNQS-SCI方法来解决复杂的量子系统。通过实现分布式去重和专门的CUDA内核来生成组态，这种新方法解决了先前CPU-GPU混合架构的可扩展性限制。该框架还采用了GPU内存管理技术来处理更大的组态空间，从而实现了更广泛的问题解决能力。在NVIDIA A100集群上的评估中，QiankunNet-cuSCI比现有方法实现了2.32倍的速度提升，同时保持了高精度。
RESEARCH · CL_08360 · Apr 27 · 23:58

新方法优化易崩溃搜索空间中的机器学习部署

研究人员开发了一种名为热预算退火（TBA）的新方法，用于优化在挑战性环境中部署的机器学习模型。该方法解决了许多配置崩溃或违反约束的问题，这是层级搜索空间中常见的问题。TBA首先探索可行区域，然后使用模型指导的优化，并结合试用超时和子空间黑名单等机制来处理硬件故障。该方法在合成基准测试和实际GPU部署上进行了测试，显示出改进的模型发现能力并减少了资源浪费。
RESEARCH · CL_01115 · Apr 22 · 21:05

AWS 和 NVIDIA Parakeet-TDT 提供经济高效的多语言音频转录

NVIDIA 发布了 Parakeet-TDT-0.6B-v3，一个开源的多语言音频转录模型，能够处理 25 种欧洲语言。该模型部署在带有 GPU 实例的 AWS Batch 上，通过同时预测文本 token 和时长来实现高推理速度，从而以显著降低的成本进行转录。该解决方案架构旨在经济高效且可扩展，处理上传到 Amazon S3 的音频文件，并利用 EC2 Spot Instances 以节省更多成本。