PulseAugur
实时 23:16:48
English(EN) How Thinking Machines built interactivity into the model

Thinking Machines 发布具有 200 毫秒处理能力的实时交互模型

Thinking Machines 发布了一类新的“交互模型”,专为实时对话式 AI 设计。这些模型以快速的 200 毫秒间隔处理音频、视频和文本,无需单独的轮次检测组件。这种架构允许连续的、交错的输入和输出流,从而能够实现边听边说以及在没有明确提示的情况下对视觉线索做出反应等功能。该系统利用两个共同训练的模型:一个用于实时对话的轻量级交互模型,以及一个用于规划和工具使用等复杂任务的后台模型,确保用户的低延迟。 AI

影响 通过将交互性直接集成到模型架构中,实现了更自然、响应更快的对话式 AI。

排序理由 新类模型的研究预览发布,具有新颖的架构方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 dev.to — LLM tag 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. dev.to — LLM tag TIER_1 English(EN) · Thousand Miles AI ·

    How Thinking Machines built interactivity into the model

    <p>A new release from Thinking Machines, dated May 11, 2026, lands at 0.40 seconds end-to-end on the FD-bench V1 turn-taking benchmark — about three times faster than GPT-realtime-2.0 (xhigh) and roughly half the latency of Gemini-3.1-flash-live (high). The latency number is the …