PulseAugur
实时 10:38:40
English(EN) BamiBERT: A New BERT-based Language Model for Vietnamese

新型BamiBERT模型树立越南语语言基准

研究人员开发了BamiBERT,一个专为越南语设计的新型语言模型。该模型在一个大型语料库上训练,提供了2048个token的扩展上下文长度,并能处理原始文本而无需外部分词。在多个基准测试中,BamiBERT的表现优于之前的标准PhoBERT,取得了同等规模下的最先进结果,并展示了有效的跨领域泛化能力。 AI

影响 为越南语处理确立了新的最先进水平,可能改进该地区的应用程序和研究。

排序理由 该集群描述了一篇介绍特定语言新型语言模型的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

新型BamiBERT模型树立越南语语言基准

报道来源 [2]

  1. arXiv cs.CL TIER_1 English(EN) · Dat Quoc Nguyen, Thinh Pham, Chi Tran, Linh The Nguyen ·

    BamiBERT: A New BERT-based Language Model for Vietnamese

    arXiv:2607.02259v1 Announce Type: new Abstract: In this paper, we introduce BamiBERT, a new BERT-based pre-trained language model for Vietnamese that addresses key limitations of PhoBERT -- the current de facto Vietnamese text encoder. Trained from scratch on a 129GB corpus of ge…

  2. arXiv cs.CL TIER_1 English(EN) · Linh The Nguyen ·

    BamiBERT: A New BERT-based Language Model for Vietnamese

    In this paper, we introduce BamiBERT, a new BERT-based pre-trained language model for Vietnamese that addresses key limitations of PhoBERT -- the current de facto Vietnamese text encoder. Trained from scratch on a 129GB corpus of general-domain Vietnamese text for 20 epochs, Bami…