IonRouter 推出了新的推理服务,该服务专为高吞吐量和低成本而设计,并利用其专有的 IonAttention 引擎。该引擎能够将多个模型多路复用到单个 GPU 上,从而实现快速模型切换和实时流量适应。该服务支持各种开源模型和微调模型,提供按秒计费和极短的冷启动时间,适用于机器人技术和实时视频分析等应用。 AI
影响 为部署各种开源和微调模型提供了更具成本效益和更高性能的推理解决方案。
排序理由 这是一个 AI 推理服务的发布,集成了现有模型,而不是发布新的基础模型。
在 HN — AI infrastructure stories 阅读 →
- Black Forest Labs
- Cumulus
- EAGLE
- FastGen
- Flux Schnell
- GLM-5
- GPT-OSS-120B
- Grace Hopper
- IonAttention
- IonRouter
- Kimi-K2.5
- LoRA
- MiniMax-M2.5
- MoonShot AI
- NVIDIA
- Qwen2.5-7B
- Qwen3.5-122B-A10B
- Wan2.2
- ZhiPu AI
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →