English(EN) Bridging the Gap: Transfer Learning from English PLMs to Malaysian English

新模型提升人工智能对马来西亚英语的理解能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-02 04:00

研究人员开发了新的预训练语言模型MENmBERT和MENBERT，专门用于改进马来西亚英语的命名实体识别（NER）和关系抽取（RE）。这种克里奥尔语是英语与马来语、中文和泰米尔语元素的融合，由于其独特的语法和语码转换，对现有模型提出了挑战。新模型在手动标注的马来西亚英语新闻文章（MEN）数据集上进行了微调，显示出显著的改进，特别是在关系抽取和命名实体识别中的特定实体标签方面，证明了特定语言预训练在低资源环境中的价值。 AI

影响增强了低资源克里奥尔语的自然语言处理能力，有望改善不同语言社区的信息获取和分析。

排序理由该集群包含一篇详细介绍特定语言变体的模型和数据集的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Mohan Raj Chanthran, Lay-Ki Soon, Huey Fang Ong, Bhawani Selvaretnam · 2026-06-02 04:00

弥合差距：从英文 PLM 到马来西亚英语的迁移学习

arXiv:2407.01374v2 Announce Type: replace Abstract: Malaysian English is a low resource creole language, where it carries the elements of Malay, Chinese, and Tamil languages, in addition to Standard English. Named Entity Recognition (NER) models underperform when capturing entiti…

报道来源 [1]

弥合差距：从英文 PLM 到马来西亚英语的迁移学习

相关话题