实体 Qwen3-Omni

Qwen3-Omni

PulseAugur coverage of Qwen3-Omni — every cluster mentioning Qwen3-Omni across labs, papers, and developer communities, ranked by signal.

总计 · 30天

7

90 天内 7

发布 · 30天

0

90 天内 0

论文 · 30天

4

90 天内 4

层级分布 · 90 天

frontier release 2
research 4
tool 1

主题

最近 · 第 1/1 页 · 共 7 条

FRONTIER RELEASE · CL_79704 · Jun 8 · 08:08

Google DeepMind 发布适用于笔记本电脑的 Gemma 4 12B 多模态模型

Google DeepMind 发布了 Gemma 4 12B，这是一款专为在具有 16GB VRAM 的笔记本电脑上本地运行而设计的新型多模态模型。该模型采用新颖的统一架构，将音频和视觉输入直接集成到 LLM 主干中，无需单独的编码器，从而降低了延迟和内存使用量。Gemma 4 12B 旨在将先进的代理多模态能力带到日常硬件上，其性能接近其较大的 26B MoE 版本，并通过开放许可和与流行工具的集成获得广泛的开发者支持。
TOOL · CL_65740 · Jun 2 · 04:00

新研究发现模态对齐会迁移人工智能音频攻击

一篇新研究论文引入了“对齐诅咒”原则，该原则证明了全模态模型中改进的文本-音频模态对齐如何会无意中将安全漏洞从文本迁移到音频。研究人员发现，文本迁移的音频攻击与仅音频攻击一样有效，甚至常常更优越，这表明当前的音频安全评估可能低估了风险。该研究分析了Qwen2.5-Omni和Qwen3-Omni等模型，发现更紧密的模态对齐与更有效的跨模态攻击迁移之间存在持续的相关性。
RESEARCH · CL_62234 · May 29 · 15:27

新方法利用仅解码器LLM增强同步语音翻译

研究人员正在开发新的同步语音翻译方法，重点关注仅解码器的大型语言模型。一种名为AlignAtt4LLM的方法，通过调整这些模型的注意力机制来提高德语和意大利语等语言的翻译质量，即使在低延迟场景下也是如此。另一种名为DOA的方法，在SpeechLLMs内部使用自注意力机制，在无需重新训练的情况下获得长文本翻译的对齐信号。此外，一个名为Canary的系统，拥有10亿参数，提供了多种语言的离线同步翻译能力。
RESEARCH · CL_49714 · May 19 · 15:55

SEATS 方法通过修剪音视频 Token 削减大语言模型计算量

研究人员开发了一种名为 SEATS 的新方法，以提高全模态大语言模型（om-LLMs）的效率。SEATS 在模型的各个层中修剪冗余的音视频 Token，并根据跨模态融合自适应地调整 Token 选择过程。这种方法在保持高性能的同时，显著降低了计算负荷并加快了推理速度。
RESEARCH · CL_15987 · May 5 · 04:00

TokenChain: A Discrete Speech Chain via Semantic Token Modeling

研究人员开发了一种名为 Token-Aware Gradient Optimization (TAGO) 的新方法，以提高音频语言模型 (ALM) 越狱攻击的效率。TAGO 仅识别并利用最具影响力的音频 token 梯度，显著降低了这些攻击所需的计算量。该方法保持了高成功率，表明密集波形更新在很大程度上是不必要的，并建议未来的研究应侧重于音频安全对齐的 token 级梯度结构。
FRONTIER RELEASE · CL_07710 · Apr 27 · 19:49

NVIDIA 发布 Nemotron 3 Nano Omni，统一多模态 AI 以提高效率

NVIDIA 发布了 Nemotron 3 Nano Omni，这是一个开放的多模态模型，能够处理文本、图像、音频和视频。该模型旨在将这些模态统一到单一架构中，从而提高效率并实现更复杂的人工智能智能体。Nemotron 3 Nano Omni 在文档智能、音频理解和视频分析的基准测试中表现出色，与之前的模型和替代方案相比，在吞吐量和推理速度方面均有显著提升。
SIGNIFICANT · CL_01804 · Sep 23 · 05:44

阿里云发布7个新AI模型及520亿美元路线图

阿里云宣布其AI能力迎来重大扩展，在四天内发布了七个新模型。其中包括Qwen3-Max、Qwen3-Omni和Qwen3-VL模型，预示着在各个AI领域取得的进展。该公司还公布了高达520亿美元的重大路线图，表明了其对AI开发和基础设施的长期承诺。