PulseAugur
实时 10:49:35
实体 Wikibooks

Wikibooks

PulseAugur coverage of Wikibooks — every cluster mentioning Wikibooks across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
关系
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_08276 ·

    研究人员开发从维基媒体转储创建高质量训练语料库的方法

    研究人员开发了一种方法,可以从原始维基媒体转储中为七种南斯拉夫语创建高质量的训练语料库。该过程包括两个主要阶段:从各种维基百科项目中提取和清理文本,然后使用基于n-gram的策略过滤掉低质量或重复的文章。这种方法旨在生成适合训练语言模型和进行比较语言学研究的语言丰富的数据集,并有可能推广到其他语言。