实体 SpeechLLM

SpeechLLM

PulseAugur coverage of SpeechLLM — every cluster mentioning SpeechLLM across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 3

发布 · 30天

90 天内 0

论文 · 30天

90 天内 3

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 3 条

RESEARCH · CL_79512 · Jun 8 · 13:27

SpeechLLM 提供多级 L2 评估及自然语言解释

研究人员开发了一种 SpeechLLM，用于评估 L2 口语在多个粒度上的熟练程度，并提供自然语言解释。该模型采用监督微调和有界直接偏好优化混合方法进行训练，可以预测准确性、流畅性和韵律的句子级标签，以及词/音素级的准确性。虽然该模型表现强劲，并能提供合理的句子级解释，但由于参考数据稀疏且对齐性弱，其在词/音素级别的可信度有所下降。
RESEARCH · CL_72530 · Jun 4 · 14:20

FiLM技术增强了病理性语音的自动语音识别能力

研究人员开发了一种使用特征维度线性调制（FiLM）技术来改进病理性语音自动语音识别（ASR）的新方法。该方法将说话人特定信息注入到冻结的ASR编码器中，使其能够在不改变基础模型权重的情况下适应个体说话人。该方法在西班牙语和英语病理性语音数据集上与现有的适应策略进行了基准测试，显示出具有竞争力的性能，同时保持了回答语音相关问题的能力。
TOOL · CL_32695 · May 14 · 12:32

SpeechLLM 实现实时翻译，延迟仅1-2秒

研究人员开发了一种新的SpeechLLM架构，专为实时语音到文本翻译而设计。与处理整个语句或固定间隔输出的先前系统不同，该模型学习确定何时接收到足够的音频输入以生成翻译。这种方法在保持与非流式方法相当的翻译质量的同时，实现了显著降低的延迟，约为1-2秒。

SpeechLLM 提供多级 L2 评估及自然语言解释

FiLM技术增强了病理性语音的自动语音识别能力

SpeechLLM 实现实时翻译，延迟仅1-2秒