Together AI
PulseAugur coverage of Together AI — every cluster mentioning Together AI across labs, papers, and developer communities, ranked by signal.
- uses Nvidia Blackwell B200 90%
- founded Vipul Ved Prakash 90%
- developed Together Code Interpreter 90%
- developed Gemma-4-31B-it-Pearl 90%
- uses Deepgram 90%
- partners with Pearl Research Labs 90%
- used by DeepSeek-R1 70%
- affiliated with Nvidia Blackwell B200 70%
- instance of Qwen 70%
- used by Together Code Interpreter 70%
- used by Zoom 70%
- uses RiMe. Rivista dell'Istituto di Storia dell'Europa Mediterranea 70%
- 2026-05-22 product_launch Together AI launched updates to its Fine-Tuning Platform, adding support for new LLMs and extending context lengths. 来源
- 2026-05-22 product_launch Together AI announced the addition of 1,000 NVIDIA H100 and H200 GPUs to its infrastructure. 来源
- 2026-05-22 product_launch Together AI launches GPU clusters with NVIDIA Blackwell platform and optimized kernel collection, achieving significant performance gains. 来源
- 2026-05-22 product_launch Together AI released FlashAttention-3 and FlashAttention-4, optimized attention mechanisms for GPUs. 来源
- 2026-05-22 product_launch Together AI launched major upgrades to its Batch Inference API. 来源
- 2026-05-22 product_launch Together AI launched access to the Qwen3.7-Max model. 来源
- 2026-05-15 partnership Together AI and Pearl Research Labs formed a partnership to integrate blockchain for AI inference cost reduction. 来源
- 2026-05-14 research_milestone Together AI's speech-to-text models achieved top rankings for transcription speed on a benchmark leaderboard. 来源
- 2026-05-08 product_launch Together AI launched a new feature enabling deployment of any Hugging Face model via their Dedicated Container Inference infrastructure using the Goose CLI agent. 来源
- 2026-04-30 research_milestone Together AI details its rapid response and mitigation strategy for the Copy Fail Linux kernel vulnerability. 来源
- 2026-04-30 partnership Together AI announced a partnership with Adaption to integrate their data optimization and model fine-tuning services. 来源
- 2026-03-26 research_milestone Together AI researchers published a framework for using smaller LLMs on long context tasks. 来源
- 2026-03-18 product_launch Together AI launched an enhanced fine-tuning service with support for tool calls, reasoning, and vision-language models. 来源
- 2026-03-16 product_launch Together AI announced new integrations and product offerings at NVIDIA GTC 2026.
- 2026-03-10 product_launch Together AI introduced significant enhancements to its GPU clusters, including multi-tenancy, autoscaling, observability, and self-healing features. 来源
11 天有情绪数据
Together AI to announce enterprise-focused cloud offering within 90 days
The recent launch of self-service GPU clusters and the ATLAS inference system, combined with enhanced fine-tuning capabilities and a brand refresh emphasizing 'builders', suggests Together AI is positioning itself for a more robust enterprise offering. These services are foundational for enterprise AI development and deployment, indicating a strategic move towards capturing a larger market share.
Together AI's ATLAS system shows strong performance against specialized hardware
The reported performance of Together AI's ATLAS system, achieving up to 500 TPS on DeepSeek-V3.1 and outperforming specialized hardware like Groq, is a significant technical achievement. This suggests their adaptive inference approach is highly effective and could set a new benchmark for LLM inference speed and efficiency.
Together AI to integrate NVIDIA Blackwell features into all core services
The 90% training speed boost achieved with NVIDIA Blackwell and custom kernels indicates a deep integration. It's likely Together AI will leverage Blackwell's capabilities across their entire platform, including their new instant clusters and fine-tuning services, to offer a performance edge over competitors.
-
Together AI 禁用 Linux 内核加密接口以修复 Copy Fail 漏洞
Together AI 详细介绍了其对一个名为 Copy Fail (CVE-2026-31431) 的关键 Linux 内核漏洞的快速响应,该漏洞允许未经授权的本地用户获得 root 访问权限。该公司将此问题视为全平台紧急事件,在数小时内禁用了其基础设施中易受攻击的加密套接字接口。他们还通过卸载易受攻击的模块并将其从模块路径中移除,实施了临时的内核加固措施,防止其在稳定上游补丁推出和测试之前重新激活。
-
拥有 1.6T 参数的 DeepSeek-V4 Pro 模型现已上线 Together AI
DeepSeek-V4 Pro 是一个拥有 1.6 万亿参数的大型混合专家模型,现已在 Together AI 平台上可用。该模型专为长上下文推理而设计,在其最初的 Together AI 部署中支持高达 512K 令牌的上下文窗口,并计划支持 1M 令牌的上下文窗口。它具有可控的推理模式,可针对速度或深度进行优化,并为缓存的输入令牌提供专门的定价,以降低重复查询的成本。
-
Together AI releases open-source Reddit-like interface for AI model queries
Together AI has released an open-source, Reddit-like interface designed for asking AI models simple questions. Inspired by the r/explainlikeimfive subreddit, the tool aims to make AI interactions more accessible. It is …
-
Together AI 在 ICLR 会议上宣布开源推理模型
Together AI 在 ICLR 上宣布了其新的推理和开源模型。该公司强调了该模型的功能,并鼓励与会者了解更多信息。
-
Together powers Yutori's Delegate, an always-on agent for web monitoring and action
Together AI has launched a new inference service designed for continuous operation, specifically for AI agents. This service powers Delegate, a new product from Yutori AI that functions as an always-on agent. Delegate c…
-
Together AI scales inference to 300T tokens per month, a 10,000x increase YoY
Together AI has announced a significant increase in its inference capacity, processing 300 trillion tokens per month. This represents a tenfold growth from its previous capacity of 30 billion tokens per month. The compa…
-
Together AI 为 AI 实验室和企业提供基础设施支持
Together AI 已宣布其平台现已在 NVIDIA Cloud 上可用。
-
Together AI发布Parcae,一种稳定的循环模型架构
Together AI推出了Parcae,一种新颖的、稳定的循环语言模型架构。这种新设计通过增加循环而非仅扩展数据,使模型能够在使用显著更少参数的情况下达到大型Transformer的质量。Parcae展示了比以往循环模型更高的稳定性,并为这类架构建立了首个缩放定律,为训练内存受限的设备端模型提出了更高效的方案。
-
Together AI 发布 Wan 2.7 视频套件,增强创意控制
Together AI 推出了 Wan 2.7 模型套件,提供高级视频生成和编辑功能。该套件包括文本到视频生成,并将很快扩展到图像到视频、参考到视频和视频编辑功能。这些模型通过音频驱动生成、帧级条件控制和参考输入等功能,为用户提供更大的创意控制力,所有这些功能都可通过 Together AI 平台上的统一 API 访问。
-
Together AI 内核团队使用 FlashAttention 优化 GPU
Together AI 内核团队,包括研究员 Dan Fu 和 Tri Dao,开发了 FlashAttention,这是一个显著优化 AI 模型 GPU 性能的软件层。这项突破通过将数据库系统原理应用于 GPU 内存移动,实现了 2-3 倍的速度提升,挑战了 transformer attention 已经完全优化的观念。该团队后续的工作,包括 ThunderKittens 库,旨在加速 NVIDIA Blackwell GPU 等…
-
小型语言模型通过“分而治之”在长上下文任务上媲美GPT-4o
Together AI 的研究人员开发了一个“分而治之”(Divide and Conquer)框架,使小型语言模型能够有效地处理长上下文任务。他们的研究发表在 ICLR 2026 上,表明通过将大型输入分解成更小的块并分配给多个能力较弱的模型,其性能可以媲美甚至超越单个大型模型(如 GPT-4o)的性能。这种方法可以缓解模型混淆和特定任务噪声等问题,从而实现更高效、更具成本效益的大量文档或代码库的处理。
-
Together AI 增强代理、推理和视觉的微调功能
Together AI 增强了其微调服务,以更好地支持高级 AI 工作流。此次更新包括对工具调用、推理和视觉语言模型微调的原生支持,解决了诸如工具执行不可靠和复杂交互中推理能力下降等常见问题。这些改进旨在提高构建代理式应用程序的 AI 团队的迭代速度和准确性,并增强高达 1T 参数模型的吞吐量和处理更大数据集的能力。
-
Together AI发布Mamba-3,优先考虑推理速度而非训练速度
Together AI发布了Mamba-3,这是一种新的状态空间模型(SSM),它优先考虑推理效率而非训练速度。该模型具有更具表现力的递归公式、复值状态跟踪以及增强准确性而不牺牲解码速度的多输入多输出(MIMO)变体。在1.5B参数规模下,Mamba-3 SISO在预填充和解码延迟方面表现优于之前的Mamba版本,甚至优于Llama-3.2-1B Transformer模型。该团队还开源了该模型的内核,这些内核是与卡内基梅隆大学、普林…
-
Together AI 发布 NVIDIA 的多模态和 1M 上下文 Nemotron 3 模型
Together AI 已在其平台上发布了 NVIDIA 的 Nemotron 3 模型,包括多模态的 Nano Omni 和大上下文的 Super。Nemotron 3 Nano Omni 是一个 30B 参数模型,擅长同时处理视频、图像、音频和语言的推理,非常适合代理应用。Nemotron 3 Super 是一个 120B 参数模型,拥有 100 万个 token 的上下文窗口和多 token 预测,可高效处理复杂的推理和长上下文…
-
Together AI 为 GPU 集群增强多租户和自动扩缩容功能
Together AI 增强了其 GPU 集群,新增的功能旨在提高 AI 原生团队的效率和可管理性。该平台现支持多租户,允许不同团队安全独立地共享计算资源。主要新增功能包括用于弹性容量的自动扩缩容、强大的可观测性工具以及用于减少停机时间和运营开销的自我修复能力。
-
新研究通过先进的压缩和存储技术解决 LLM KV 缓存瓶颈
2026年5月发布的几篇研究论文介绍了优化大型语言模型中键值(KV)缓存的新技术,以解决内存和延迟瓶颈。这些方法包括将 KV 缓存卸载到 S3 等对象存储(ObjectCache),采用三向令牌路由(VECTOR)等先进压缩策略,以及使用辅助模型进行选择性 KV 缓存重新计算(CacheClip)。其他方法侧重于硬件感知量化(InnerQ, OCTOPUS)和面向服务的自适应压缩(KVServe),以提高效率并减少解码延迟,尤其是在长…
-
语音模型在街道名称识别上表现不佳,非母语者尤其如此
Together AI 的研究人员发现,当前最先进的语音识别模型存在显著的失败率,转录街道名称的平均错误率为 39%,特别是对于非英语母语者,他们的信息被误解的可能性高出 18%。这种不准确性可能导致严重的现实后果,例如增加出行时间和网约车等服务的成本。研究表明,一种名为“跨语言风格迁移”的合成数据生成技术,只需极少量的训练数据即可将转录准确率提高高达 60%。
-
Together AI 扩展 LLM 微调功能,增加更长上下文
Together AI 增强了其微调平台,以支持更广泛的大型语言模型,包括 DeepSeek、Qwen 和 Meta 的最新版本,以及 OpenAI 的 gpt-oss。该平台现在提供扩展的上下文长度,部分模型的上下文长度可达 131k token,且无需额外费用,从而便于处理长文档和复杂的代码编辑等任务。另外,Together AI 的研究人员使用最小、主题中立的提示来探索 LLM 的行为,以揭示模型固有的偏好,他们发现 GPT-O…
-
Together AI 发布 Rime V3 模型,支持自然语音语种切换
Together AI 推出了两款新的 Rime 模型:V3 Turbo 和 V3,专为语音代理中的自然语种切换而设计。V3 Turbo 在专用端点上提供英语-西班牙语切换,首音频时间(time-to-first-audio)约为 120 毫秒,可保持对话流畅度和韵律。V3 模型支持 11 种语言之间的切换,为多语言客户互动提供统一的解决方案,无需单独的特定语言模型。
-
DSGym框架标准化数据科学代理的评估和训练
研究人员推出DSGym,一个旨在标准化数据科学代理评估和训练的新框架。该系统通过提供统一的API和独立的执行环境,解决了当前基准测试的局限性,确保了公平的比较,并使代理能够利用底层数据。DSGym整合了现有基准测试,并为生物信息学和机器学习竞赛引入了新数据集,通过训练一个拥有40亿参数的模型达到开源代理中的最先进性能,展示了其效用。