Researchers develop method to create quality training corpora from Wikimedia dumps

By PulseAugur Editorial · [3 sources] · 2026-04-28 08:51

Researchers have developed a method to create high-quality training corpora for seven South Slavic languages from raw Wikimedia dumps. The process involves two main stages: extracting and cleaning text from various Wikipedia projects, and then filtering out low-quality or repetitive articles using an n-gram-based strategy. This approach aims to produce linguistically rich datasets suitable for training language models and conducting comparative linguistic research, with potential for generalization to other languages. AI

IMPACT Provides a scalable method for generating specialized language corpora, potentially improving LLM performance on under-resourced languages.

RANK_REASON Academic paper detailing a methodology for creating training data.

Read on arXiv cs.CL →

paper
other

AI-generated summary · Google Gemini · from 3 sources. How we write summaries →

Researchers develop method to create quality training corpora from Wikimedia dumps

COVERAGE [3]

arXiv cs.CL TIER_1 English(EN) · Mihailo \v{S}kori\'c · 2026-04-29 04:00

Wiki Dumps to Training Corpora: South Slavic Case

arXiv:2604.25384v1 Announce Type: new Abstract: This paper presents a methodology for transforming raw Wikimedia dumps into quality textual corpora for seven South Slavic languages. The work is divided into two major phases. The first involves extracting and cleaning text from ra…
arXiv cs.CL TIER_1 English(EN) · Mihailo Škorić · 2026-04-28 08:51

Wiki Dumps to Training Corpora: South Slavic Case

This paper presents a methodology for transforming raw Wikimedia dumps into quality textual corpora for seven South Slavic languages. The work is divided into two major phases. The first involves extracting and cleaning text from raw dumps of Wikipedia, Wikisource, Wikibooks, Wik…
Hugging Face Daily Papers TIER_1 English(EN) · 2026-04-28 08:51

Wiki Dumps to Training Corpora: South Slavic Case

This paper presents a methodology for transforming raw Wikimedia dumps into quality textual corpora for seven South Slavic languages. The work is divided into two major phases. The first involves extracting and cleaning text from raw dumps of Wikipedia, Wikisource, Wikibooks, Wik…

COVERAGE [3]

Wiki Dumps to Training Corpora: South Slavic Case

Wiki Dumps to Training Corpora: South Slavic Case

Wiki Dumps to Training Corpora: South Slavic Case

RELATED ENTITIES

RELATED TOPICS