Qwen3-Omni
PulseAugur coverage of Qwen3-Omni — every cluster mentioning Qwen3-Omni across labs, papers, and developer communities, ranked by signal.
1 天有情绪数据
-
SEATS 方法通过修剪音视频 Token 削减大语言模型计算量
研究人员开发了一种名为 SEATS 的新方法,以提高全模态大语言模型(om-LLMs)的效率。SEATS 在模型的各个层中修剪冗余的音视频 Token,并根据跨模态融合自适应地调整 Token 选择过程。这种方法在保持高性能的同时,显著降低了计算负荷并加快了推理速度。
-
TokenChain: A Discrete Speech Chain via Semantic Token Modeling
研究人员开发了一种名为 Token-Aware Gradient Optimization (TAGO) 的新方法,以提高音频语言模型 (ALM) 越狱攻击的效率。TAGO 仅识别并利用最具影响力的音频 token 梯度,显著降低了这些攻击所需的计算量。该方法保持了高成功率,表明密集波形更新在很大程度上是不必要的,并建议未来的研究应侧重于音频安全对齐的 token 级梯度结构。
-
NVIDIA 发布 Nemotron 3 Nano Omni,统一多模态 AI 以提高效率
NVIDIA 发布了 Nemotron 3 Nano Omni,这是一个开放的多模态模型,能够处理文本、图像、音频和视频。该模型旨在将这些模态统一到单一架构中,从而提高效率并实现更复杂的人工智能智能体。Nemotron 3 Nano Omni 在文档智能、音频理解和视频分析的基准测试中表现出色,与之前的模型和替代方案相比,在吞吐量和推理速度方面均有显著提升。
-
Alibaba Cloud launches 7 new AI models and a $52B roadmap
Alibaba Cloud announced a significant expansion of its AI capabilities, releasing seven new models over a four-day period. Among these were the Qwen3-Max, Qwen3-Omni, and Qwen3-VL models, indicating advancements in vari…