研究人员推出moBERTo,一个通过对ModernBERT进行持续预训练而衍生的新型葡萄牙语语言模型。该模型在600亿个token上进行了训练,整合了FineWeb2以及经过筛选的STEM和教育内容的数据。moBERTo在包括信息检索、文档分类、命名实体识别和自然语言理解在内的多项自然语言处理任务中表现出色,尤其在葡萄牙语检索基准测试中表现突出。 AI
影响 增强了葡萄牙语的NLP能力,有望改善该语言的信息检索和文档理解。
排序理由 该条目描述了一个在arXiv上作为研究论文发布的新语言模型,详细介绍了其训练过程和评估。 [lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →