实体 AI inference

AI inference

PulseAugur coverage of AI inference — every cluster mentioning AI inference across labs, papers, and developer communities, ranked by signal.

总计 · 30天

14

90 天内 14

发布 · 30天

0

90 天内 0

论文 · 30天

4

90 天内 4

层级分布 · 90 天

significant 2
research 3
tool 7
commentary 2

主题

情绪 · 30 天

3 天有情绪数据

最近 · 第 1/1 页 · 共 14 条

COMMENTARY · CL_112364 · Jun 26 · 13:06

AI推理盈利能力引发泡沫担忧的争论 · 跟踪2个来源

AI推理的盈利能力是一个讨论话题，一些人认为这显然是一项有利可图的业务。这种观点认为，底层技术及其应用正在产生可观的回报。对话涉及AI泡沫的可能性，暗示当前的估值或市场状况可能不可持续。
SIGNIFICANT · CL_100563 · Jun 19 · 11:05

AI 代理和推理驱动科技新前沿：3D 世界获 20 亿美元，Baseten 获 130 亿美元

General Intuition 正在向专为 3D 环境设计的 AI 代理投资 20 亿美元，旨在彻底改变模拟、游戏和数字工作。与此同时，Baseten 的估值目标为 130 亿美元，凸显了 AI 推理在科技行业中的快速增长和日益增长的重要性。这些发展突显了技术竞争正显著转向由 AI 驱动的应用和基础设施。
SIGNIFICANT · CL_83654 · Jun 10 · 16:08

AI 推理需要超越计算的可扩展内存

人工智能行业正将其基础设施重点从模型训练转向推理，这给内存管理带来了新的挑战。与计算和带宽密集型的训练不同，推理需要高效地存储和提供持久的、驻留在内存中的数据。这需要将内存和计算解耦，以避免过度配置昂贵的处理器，并根据用户活动和上下文窗口的扩展独立扩展内存容量。
RESEARCH · CL_82050 · Jun 9 · 10:08

新方法论解决了企业报告中的AI推理排放问题

已提出一种新方法论，用于在企业可持续性报告中准确核算AI推理服务产生的温室气体排放。该四级框架旨在提供比当前实践更精确的估算，当前实践通常会忽略这些排放或使用过于宽泛的经济因素。所提出的方法利用GPU能耗基准和区域电网碳强度进行直接估算，对于缺乏使用数据的服务，则回退到基于支出的经济因素。
TOOL · CL_73284 · Jun 5 · 12:19

研究揭穿Pearl区块链“AI挖矿”的宣传

一项新研究揭穿了Pearl区块链“有用功证明”（PoUW）机制的宣传，发现它并未如宣传的那样为AI推理做出贡献。尽管该网络声称拥有强大的计算能力，但研究发现其运行仅包含琐碎的算术计算，未能产生任何有价值的AI输出。研究指出，该系统导致GPU租赁价格虚高，并转移了真正科学研究的资源，暴露了理论PoUW与其现实应用之间的实用性鸿沟。
TOOL · CL_71589 · Jun 4 · 17:08

在自管基础设施上部署符合HIPAA的AI推理

本文提供了一份关于部署符合HIPAA法规的AI推理服务的指南，强调使用自控基础设施。文章详细介绍了如何设置安全环境、管理数据隐私以及确保医疗应用AI模型的可靠性。重点在于在整个AI推理过程中维护对敏感患者数据的控制权。
TOOL · CL_69301 · Jun 3 · 17:13

分析发现轨道计算仅对主权云可行

Brandon Karpf 分析了轨道计算基础设施的五种潜在商业模式，包括 AI 训练、AI 推理、公共云、内容分发和边缘计算。他的研究表明，只有主权云模式在轨道上具有经济可行性。这表明未来太空计算资源的利用方式将发生重大转变。
TOOL · CL_68333 · Jun 3 · 04:00

分布式计算系统的生成马尔可夫模型框架

研究人员介绍了一种使用生成马尔可夫模型对分布式计算系统进行建模的新框架。该方法将系统状态分解为结构化变量，从而实现更高效的模拟、推理和策略学习。一项关于协作式AI推理的案例研究表明，与集中式调度相比，将计算分布在用户设备上可以减少延迟和服务器负载。
TOOL · CL_44370 · May 22 · 16:01

Modal 在几秒钟内实现了用于 AI 推理的无服务器 GPU

Modal 开发了一个系统，实现了真正的无服务器 GPU 用于 AI 推理，解决了快速扩展资源以满足可变需求这一挑战。他们的方法包括维护空闲 GPU 的云缓冲区、用于延迟容器镜像服务的自定义文件系统以及 CPU 和 GPU 进程的高效检查点/恢复机制。这项历时五年的工程努力，将 AI 推理副本的扩展时间从几十分钟缩短到几秒钟，旨在最大限度地提高 GPU 分配利用率。
RESEARCH · CL_48751 · May 22 · 00:00

大型语言模型和新框架助力 GPU 内核优化

研究人员正在探索优化大型语言模型 GPU 内核性能的新方法。一种方法使用语言模型作为代理来预测内核性能，在有限预算内显著增加考虑的候选数量。另一种方法 STOF 通过优化多头注意力和融合下游算子来加速稀疏 Transformer。此外，一个名为 KLineage 的新框架从专家内核中学习优化技能来指导大型语言模型，而 Xe-Forge 使用多阶段管道为 Intel GPU 自动化内核优化。最后，FastKernels 通过创建与生产环…
RESEARCH · CL_33472 · May 15 · 16:45

改造后的RTX 2080 Ti GPU以38 tokens/秒运行Qwen 3.6 AI模型

一位爱好者改造了NVIDIA GeForce RTX 2080 Ti显卡，使其能够以每秒38个token的速度运行Qwen 3.6 27B AI模型。该设置利用了旧硬件，证明了经济实惠的配置也能实现先进的AI推理。改造涉及增加显卡的VRAM以处理庞大的模型。
SIGNIFICANT · CL_29110 · May 12 · 21:59

初创公司SPAN推出家用小型数据中心以提供AI算力

一家名为SPAN的初创公司正在试点一项计划，在居民家中部署数千个小型数据中心，以增加AI算力。这些分布式节点配备了液冷Nvidia GPU，旨在为AI推理、云游戏和内容流媒体提供算力。SPAN声称，这种方法比传统数据中心更便宜、更环保，并计划到2027年将其规模扩大到80,000个单元。
COMMENTARY · CL_27388 · May 12 · 00:24

AI推理被分为面向人类和代理工作负载

Ben Thompson 提出了一个理解 AI 推理工作负载的新框架，将其分为“答案推理”和“代理推理”。需要即时人类反馈的答案推理将继续利用高端 GPU。无人等待的代理推理可以迁移到更普通的硬件，这与 20 世纪 70 年代批处理从大型机转向小型系统的转变有相似之处。
RESEARCH · CL_27016 · May 11 · 12:07

Aria Networks 首席执行官：AI 推理重塑数据中心网络

AI 网络初创公司 Aria Networks 认为，网络正超越其传统角色，成为 AI 基础设施的关键组成部分。公司首席执行官 Mansour Karam 强调，随着分布式推理和代理式 AI 系统的普及，优化 token 效率和模型 FLOP 利用率 (MFU) 至关重要。Aria 的平台集成了硬件、SONiC 软件和 AI 驱动的工具，可实时动态调整网络，旨在提高 AI 运营的整体效率和成本效益。