Brief · PulseAugur

COMMENTARY · Forbes — Innovation English(EN) · 1w

AI’s Dirty Secret: It Mostly Speaks English

Despite claims of multilingual capabilities, most AI systems primarily operate in English due to training data imbalances. Large language models are predominantly trained on English content, with studies indicating up to 90% of training tokens are English. This linguistic bias means AI often processes information through an English-centric lens, even when translating outputs, potentially overlooking cultural nuances and local contexts. Consequently, AI performance can be weaker and error rates higher in non-English languages, impacting its effectiveness in diverse global applications. AI

IMPACT AI systems' English-centric training limits their effectiveness and cultural nuance in non-English languages, impacting global applications.

AI
Meta
ChatGPT
LLMs
LLaMA 2
large language models
World Economic Forum
English
DATAmundi.ai
MMLU benchmark
Véronique Özkaya