实体
SpeechLLM
SpeechLLM
PulseAugur coverage of SpeechLLM — every cluster mentioning SpeechLLM across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
主题
情绪 · 30 天
2 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
FiLM技术增强了病理性语音的自动语音识别能力
研究人员开发了一种使用特征维度线性调制(FiLM)技术来改进病理性语音自动语音识别(ASR)的新方法。该方法将说话人特定信息注入到冻结的ASR编码器中,使其能够在不改变基础模型权重的情况下适应个体说话人。该方法在西班牙语和英语病理性语音数据集上与现有的适应策略进行了基准测试,显示出具有竞争力的性能,同时保持了回答语音相关问题的能力。
-
SpeechLLM 实现实时翻译,延迟仅1-2秒
研究人员开发了一种新的SpeechLLM架构,专为实时语音到文本翻译而设计。与处理整个语句或固定间隔输出的先前系统不同,该模型学习确定何时接收到足够的音频输入以生成翻译。这种方法在保持与非流式方法相当的翻译质量的同时,实现了显著降低的延迟,约为1-2秒。