实体 Qwen2.5 Omni

Qwen2.5 Omni

PulseAugur coverage of Qwen2.5 Omni — every cluster mentioning Qwen2.5 Omni across labs, papers, and developer communities, ranked by signal.

总计 · 30天

10

90 天内 10

发布 · 30天

0

90 天内 0

论文 · 30天

10

90 天内 10

层级分布 · 90 天

主题

情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 10 条

RESEARCH · CL_128785 · Jul 7 · 04:00

新方法解决全模态LLM的令牌压缩问题以提高效率

两篇新的研究论文提出了压缩全模态大语言模型（OmniLLMs）令牌序列的方法，以降低推理成本。第一篇论文DASH，使用音频线索动态分割序列，并采用三信号估计器保留重要令牌，在AVUT和VideoMME等基准测试中实现了更高的压缩率和有竞争力的准确性。第二篇论文OmniFocus，采用查询引导式方法，独立估计视频和音频令牌的重要性，旨在减轻模态偏差并保持一致性。OmniFocus在Qwen2.5-Omni模型系列上展示了强大的性能，在准…
TOOL · CL_120166 · Jun 30 · 00:00

FlexiSLM 为口语语言模型引入动态帧率

研究人员开发了 FlexiSLM，这是一种新颖的口语语言模型，可以动态调整语音输入和输出的帧率。与使用固定帧率的现有模型不同，FlexiSLM 可以适应语音变化的信息密度，从而在质量和推理速度之间进行权衡。这种灵活性使 FlexiSLM 能够超越固定帧率模型，并在保持强大的语音到语音质量的同时显著减少推理时间。
TOOL · CL_82492 · Jun 10 · 04:00

研究人员绘制多模态大语言模型中的视听信息流

研究人员调查了处理音频和视觉数据的多模态大语言模型（MLLM）内部的信息流。他们的研究聚焦于视听大语言模型（AVLLM），揭示了这些模型如何路由和整合感官输入以生成响应。研究结果表明，对于基于视频的输入，信息遵循顺序路径；对于交错的视听项目，信息则转向并行流，并丢弃冗余信息以提高效率。
TOOL · CL_65740 · Jun 2 · 04:00

新研究发现模态对齐会迁移人工智能音频攻击

一篇新研究论文引入了“对齐诅咒”原则，该原则证明了全模态模型中改进的文本-音频模态对齐如何会无意中将安全漏洞从文本迁移到音频。研究人员发现，文本迁移的音频攻击与仅音频攻击一样有效，甚至常常更优越，这表明当前的音频安全评估可能低估了风险。该研究分析了Qwen2.5-Omni和Qwen3-Omni等模型，发现更紧密的模态对齐与更有效的跨模态攻击迁移之间存在持续的相关性。
RESEARCH · CL_65198 · Jun 1 · 07:34

新的大语言模型工具可自动标注语音和转录错误

研究人员开发了两种自动标注语音转录错误的新方法。一种方法是语音翻译错误标注（STEL），它使用现有的仅文本和多模态大语言模型来识别语音翻译中的错误，尽管目前系统的精确度约为人类的一半。另一种方法是TalkTag，它采用经过微调的大语言模型来自动标注口语转录中的细粒度词句法错误，即使在数据有限的情况下也证明是有效的。
TOOL · CL_50892 · May 26 · 04:00

Raon-Speech 发布 90 亿参数模型，用于语音理解与生成

研究人员推出了 Raon-Speech，一个拥有 90 亿参数的语音语言模型，能够理解、回答和生成英语和韩语的语音。该模型在超过 138 万小时的精选语音和文本数据上进行训练，在以语音为中心的任务上表现优于同等规模的音频基础模型，同时保持了强大的文本问答能力。一个名为 Raon-SpeechChat 的扩展通过额外的对话数据训练，进一步增强了实时全双工对话能力，在轮次转换和中断敏感性方面表现出色。
RESEARCH · CL_49714 · May 19 · 15:55

SEATS 方法通过修剪音视频 Token 削减大语言模型计算量

研究人员开发了一种名为 SEATS 的新方法，以提高全模态大语言模型（om-LLMs）的效率。SEATS 在模型的各个层中修剪冗余的音视频 Token，并根据跨模态融合自适应地调整 Token 选择过程。这种方法在保持高性能的同时，显著降低了计算负荷并加快了推理速度。
TOOL · CL_40907 · May 19 · 15:05

AffectVerse模型通过时间想象预测未来情绪

研究人员推出了一款名为AffectVerse的新型多模态模型，专为情感计算设计，并将时间预测整合到其推理过程中。与以往静态处理情绪识别的模型不同，AffectVerse使用情感世界模块（EWM）基于过去的多模态线索来想象和预测未来的情感状态。据报道，通过跨模态时间想象和信念聚合实现的这种预测能力，在九个基准测试中的表现提高了至少2.57%。
TOOL · CL_15635 · May 5 · 04:00

Omni-Encoder 统一视觉和音频处理，实现类人运动感知

研究人员开发了 Omni-Encoder，这是一种新颖的 Transformer 主干网络，它统一了视觉和音频信号以实现更全面的感知。与之前分别以不同速率处理模态的 precedente 模型不同，Omni-Encoder 以对称的每秒 25 帧率共同嵌入视觉和音频数据。这种方法旨在提高对细粒度运动和跨模态交互的理解，在手语识别和体育动作分析等任务中显示出潜力。
RESEARCH · CL_06508 · Apr 28 · 04:00

新框架揭示以自我为中心的视频模型中的音频幻觉

研究人员开发了一个新的框架来评估以自我为中心的视频中的音频幻觉，即模型从视觉线索推断出实际未听到的声音。他们的研究发现，像 Qwen2.5 Omni 这样的先进视听语言模型 (AV-LLMs) 表现出显著的幻觉率。该团队策划了一个包含 300 个视频的数据集，并创建了 1,000 个以声音为重点的问题来探查模型输出，将幻觉分为前景动作声音和背景环境声音。