English(EN) The NTNU System at the S&I Challenge 2025 SLA Open Track

NTNU系统整合W2V和Phi-4用于口语评估

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-30 04:00

来自NTNU的研究人员开发了一个新颖的口语评估（SLA）系统，该系统整合了wav2vec 2.0 (W2V) 模型和Phi-4多模态大语言模型（MLLM）。这种方法旨在克服现有方法的局限性，例如基于BERT的系统会遗漏韵律线索，而基于W2V的系统则缺乏语义可解释性。该组合系统在Speak & Improve Challenge 2025测试集上取得了0.375的均方根误差（RMSE），获得第二名。 AI

影响这项研究展示了一种整合声学和语义模型进行语言评估的新颖方法，有望改进自动化评估系统。

排序理由该集群包含一篇学术论文，详细介绍了一个用于口语评估的新系统。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Hong-Yun Lin, Tien-Hong Lo, Yu-Hsuan Fang, Jhen-Ke Lin, Chung-Chun Wang, Hao-Chien Lu, Berlin Chen · 2026-06-30 04:00

The NTNU System at the S&I Challenge 2025 SLA Open Track

arXiv:2506.05121v3 Announce Type: replace Abstract: A recent line of research on spoken language assessment (SLA) employs neural models such as BERT and wav2vec 2.0 (W2V) to evaluate speaking proficiency across linguistic and acoustic modalities. Although both models effectively …

报道来源 [1]

The NTNU System at the S&I Challenge 2025 SLA Open Track

相关实体

相关话题