Thinking Machines 发布了一类新的“交互模型”,专为实时对话式 AI 设计。这些模型以快速的 200 毫秒间隔处理音频、视频和文本,无需单独的轮次检测组件。这种架构允许连续的、交错的输入和输出流,从而能够实现边听边说以及在没有明确提示的情况下对视觉线索做出反应等功能。该系统利用两个共同训练的模型:一个用于实时对话的轻量级交互模型,以及一个用于规划和工具使用等复杂任务的后台模型,确保用户的低延迟。 AI
影响 通过将交互性直接集成到模型架构中,实现了更自然、响应更快的对话式 AI。
排序理由 新类模型的研究预览发布,具有新颖的架构方法。[lever_c_demoted from research: ic=1 ai=1.0]
- The Bitter Lesson
- FD-bench V1
- Gemini-3.1-flash-live
- GPT-realtime-2.0
- IFEval
- Thinking Machines
- TML-Interaction-Small
- Whisper
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →