研究人员开发了新的预训练语言模型MENmBERT和MENBERT,专门用于改进马来西亚英语的命名实体识别(NER)和关系抽取(RE)。这种克里奥尔语是英语与马来语、中文和泰米尔语元素的融合,由于其独特的语法和语码转换,对现有模型提出了挑战。新模型在手动标注的马来西亚英语新闻文章(MEN)数据集上进行了微调,显示出显著的改进,特别是在关系抽取和命名实体识别中的特定实体标签方面,证明了特定语言预训练在低资源环境中的价值。 AI
影响 增强了低资源克里奥尔语的自然语言处理能力,有望改善不同语言社区的信息获取和分析。
排序理由 该集群包含一篇详细介绍特定语言变体的模型和数据集的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →