研究人员评估了大型语言模型(LLMs)在理解和生成南亚古典音乐方面的能力,该领域具有与西方传统不同的独特结构原则。他们的新基准包含504个问题,测试了33个LLMs,其中Gemini 2.5 Pro等顶级模型在理解方面取得了高准确率,而大多数开源模型表现不佳。在音乐生成方面,即使是最好的模型,也只有40%的时间能产生风格上忠实的输出,这表明结构有效性和风格忠实性是AI在这一低资源音乐背景下面临的独立挑战。 AI
影响 凸显了当前大型语言模型在具有文化特异性的低资源领域的局限性,表明需要更专业的模型。
排序理由 学术论文,介绍了一个新的基准和对特定领域大型语言模型的评估。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →