研究人员开发了 PACUTE,这是一个由 4,600 个任务组成的新的诊断基准,专门用于评估大型语言模型 (LLM) 在菲律宾语中的形态学理解能力。由于其复杂的形态学,包括插入和重复,标准分词器通常无法捕捉到,这种语言带来了独特的挑战。对开放权重和前沿商业 LLM 的评估显示,虽然前沿模型在识别词素方面表现有所提高,但它们在涉及生成性形态组合和音节划分的任务上仍然遇到困难,这表明这仍然是它们语言能力的一个重大瓶颈。 AI
影响 确定形态组合是 LLM 持续存在的瓶颈,指导未来在语言理解方面的研究。
排序理由 研究论文,介绍了一个用于评估 LLM 在特定语言任务上能力的新基准。[lever_c_demoted from research: ic=1 ai=1.0]
- alphaXiv
- arXiv
- CatalyzeX
- DagsHub
- Filipino
- Gotit.pub
- Hugging Face
- Jann Railey Montalan
- PACUTE
- ScienceCast
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →