实体 Gemini-3.1-flash-live

Gemini-3.1-flash-live

PulseAugur coverage of Gemini-3.1-flash-live — every cluster mentioning Gemini-3.1-flash-live across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 6

发布 · 30天

90 天内 0

论文 · 30天

90 天内 2

层级分布 · 90 天

frontier release 2
research 2
tool 2

主题

情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 6 条

TOOL · CL_120341 · Jul 1 · 00:00

xAI 推出无代码平台，用于构建 Grok Voice 代理

xAI 推出了语音代理构建器（Voice Agent Builder），这是一个用于创建由 Grok Voice 驱动的生产级语音代理的无代码平台。该工具通过将语音转文本、语言模型和文本转语音集成到单一的语音到语音路径中，简化了语音应用程序的构建过程，从而降低了成本和延迟。该平台允许用户使用自然语言描述、知识库、工具和护栏来配置代理，使它们能够处理复杂的呼叫、与外部系统交互，甚至转接给人工代理。
RESEARCH · CL_109557 · Jun 24 · 17:55

研究发现：语音AI系统尽管能感知情绪，但未能据此采取行动 · 跟踪2个来源

一项新的研究论文评估了四种领先的实时语音AI系统——OpenAI的GPT Realtime 2、谷歌的Gemini 3.1 Flash Live，以及阿里巴巴的Qwen3.5 Omni Plus和Omni Flash——发现它们尽管能够感知到声音中的情绪或讽刺等线索，却常常未能据此采取行动。这种“情商差距”意味着系统优先考虑所说的字面意思，而不是语气和表达方式，导致在客户服务或金融交易等关键场景中出现不恰当的响应。虽然提示可以提供部分…
TOOL · CL_46753 · May 24 · 06:35

Thinking Machines 发布具有 200 毫秒处理能力的实时交互模型

Thinking Machines 发布了一类新的“交互模型”，专为实时对话式 AI 设计。这些模型以快速的 200 毫秒间隔处理音频、视频和文本，无需单独的轮次检测组件。这种架构允许连续的、交错的输入和输出流，从而能够实现边听边说以及在没有明确提示的情况下对视觉线索做出反应等功能。该系统利用两个共同训练的模型：一个用于实时对话的轻量级交互模型，以及一个用于规划和工具使用等复杂任务的后台模型，确保用户的低延迟。
RESEARCH · CL_24120 · May 9 · 10:24

Google 测试具备不同能力的多款隐藏 Gemini Live AI 模型

Google 似乎正在为其 Gemini Live 语音助手测试至少七款新 AI 模型，此信息源自 Google 应用内的代码。这些模型，其中一些代号为“Capybara”和“Nitrogen”，具备不同的能力，包括用于天气数据的地理位置感知。虽然目前这些模型隐藏在服务器端标志后面，并且很可能是一个内部测试工具，但其基础设施表明 Google 未来可能会允许用户为 Gemini Live 选择不同的模型，从而可能在响应速度和思考深度之间进行权衡。
FRONTIER RELEASE · CL_03259 · Apr 23 · 00:00

xAI 发布 Grok Voice Think Fast 1.0，登顶语音代理基准测试

xAI 发布了 Grok Voice Think Fast 1.0，这是一款专为复杂、多步骤工作流程设计的新旗舰语音模型。该模型在客户支持和企业应用方面表现出色，即使在有背景噪音、口音和中断的情况下也能提供低延迟和高准确性。它在 τ-voice Bench 排行榜上名列前茅，并已被 Starlink 用于销售和客户支持，据报道，其销售转化率达到 20%，支持咨询解决率达到 70%。
FRONTIER RELEASE · CL_01698 · May 20 · 05:44

Google DeepMind 发布 Gemini 3.1 Flash TTS、Live 和 Lite 模型

Google DeepMind 推出了一系列 Gemini 3.1 Flash 模型，包括用于高级文本到语音的 Flash TTS、用于实时对话的 Flash Live 以及用于成本高效、大批量工作负载的 Flash-Lite。这些模型提供了改进的自然度、表现力和速度，其中 Flash TTS 在语音质量基准测试中获得了高 Elo 分数，Flash Live 在复杂任务完成方面表现强劲。TTS 和 Live 模型生成的所有音频都使用 …

xAI 推出无代码平台，用于构建 Grok Voice 代理

研究发现：语音AI系统尽管能感知情绪，但未能据此采取行动 · 跟踪2个来源

Thinking Machines 发布具有 200 毫秒处理能力的实时交互模型

Google 测试具备不同能力的多款隐藏 Gemini Live AI 模型

xAI 发布 Grok Voice Think Fast 1.0，登顶语音代理基准测试

Google DeepMind 发布 Gemini 3.1 Flash TTS、Live 和 Lite 模型