Logo

L’IA generativa è addestrata principalmente in inglese, e questo è un problema

La moderazione dei contenuti sui social non funziona allo stesso modo in lingue “sottorappresentate”

15 settembre 2025
Condividi

Si stima che l’inglese sia la lingua che costituisce il 90 per cento dei dati di addestramento per gli attuali software di intelligenza artificiale generativa. A parlarla, però, è meno del 20 per cento della popolazione mondiale. 

Questo divario linguistico nasce dal fatto che ad oggi i modelli IA vengono addestrati principalmente su dati provenienti da Internet, dove secondo un report dell’Università di Stanford meno del 5 per cento delle circa 7000 lingue parlate nel mondo ha una rappresentanza significativa. A ciò si aggiunge che se alcune lingue (come l’inglese) sono presenti in maniera estesa sotto forma di dati digitali leggibili dal computer, altre (come l’hindi, il finlandese o lo sloveno) lo sono molto meno oppure non lo sono affatto. Si parla quindi di lingue “lingue sottorappresentate” o “lingue con scarse risorse”, ossia con una bassa quantità di dati digitali.  

Come se non bastasse, i gruppi che parlano queste lingue spesso mancano di risorse per contribuire alla comunità digitale o per elaborare la propria lingua sotto forma di dati leggibili dal computer. Alcune di queste, peraltro, sono usate prettamente in forma orale (come i dialetti) o non hanno sistemi standardizzati di scrittura. Il risultato è che ad oggi solo sette su circa 7000 lingue parlate nel mondo sono considerate “con molte risorse”, ossia con grandi quantità di dati digitali; e questo a prescindere di quante persone le parlino.  

Questo divario linguistico non è solamente quantitativo. Infatti, la qualità delle risposte in inglese dei chatbot è più alta rispetto a quella registrata in altre lingue. Ad esempio, il chatbot IA di ChatGPT supporta ufficialmente 58 lingue, ma due recenti studi – che hanno confrontato le risposte di ChatGPT in ambito medico-diagnostico in lingue diverse – hanno dimostrato che quelle in inglese sono migliori.

Cosa vuol dire essere una “lingua sottorappresentata”

In ambito informatico, l’inglese è non solo la “lingua franca” della ricerca, ma anche il focus di moltissimi studi di linguistica computazionale, ossia la disciplina dietro allo sviluppo di chatbot come ChatGPT. In inglese, quindi, i modelli linguistici sono diventati nel corso degli anni sempre più intelligenti. Questa intelligenza, però, sembra diminuire considerevolmente in altre lingue o in dialetti diversi dall’inglese americano. È stato dimostrato, ad esempio, che i software IA per la rilevazione di plagio hanno un bias nei confronti di chi non è madrelingua inglese in quanto tendono a indicare i loro testi come “generati da IA”. 

Questa disparità finisce quindi col reiterare ineguaglianze già presenti, e anche tra la miriade di lingue “sottorappresentate” si notano delle dinamiche di questo tipo: per esempio, esistono molti più dati per il basco, parlato da circa 800mila persone tra Spagna e Francia, rispetto a quanti ne abbiamo per lo swahili, parlato da circa 70 milioni di persone in diversi Paesi africani. E se lo swahili non dispone di abbastanza risorse digitalizzate per lo sviluppo dei modelli IA, il gallese, con neanche un milione di madrelingua, beneficia di un’ampia documentazione e di iniziative di conservazione digitale.

Il rischio, quindi, è che i sistemi culturali e linguistici di popoli interi possano essere lasciati fuori dalla rivoluzione dell’intelligenza artificiale. Le conseguenze, oltre a comportare una cancellazione progressiva di culture e sistemi linguistici non dominanti (le lingue indigene, ad esempio, sono progressivamente a rischio di estinzione), possono avere un impatto sulla vita di comunità già marginalizzate, reiterando stereotipi di genere o razzisti

Nel 2019, un uomo afro-indigeno brasiliano passò sei mesi in detenzione presso l’Ufficio Immigrazione e Dogana degli Stati Uniti perché il sistema di traduzione vocale usato dagli agenti alla frontiera non riusciva a cogliere il suo accento regionale o il suo dialetto. Da allora sono passati sei anni, e i software di traduzione IA hanno fatto passi da gigante. Ma nonostante ciò alcune lingue continuano a non essere supportate, e l’enorme varietà di dialetti e tipologie di scrittura rappresenta un ostacolo non indifferente per i software computazionali. 

La questione, però, è anche culturale: infatti, i principali software sviluppati da aziende statunitensi come Meta, OpenAI e Google , inoltre, tendono a rappresentare più da vicino i valori e i modi di esprimersi delle persone di un determinato gruppo sociale: quello degli Stati Uniti e di altri Paesi occidentali. Questo è quanto emerge da un articolo pubblicato dall’Istituto di ricerca inglese Ada Lovelace, che sottolinea come le persone al di fuori di questo gruppo di Paesi al momento interagiscono con modelli IA che riflettono modi di vivere e di pensare lontani dal loro. Questo problema, secondo l’istituto di ricerca, si manifesta soprattutto quando i chatbot vengono utilizzati da alcuni utenti come confidenti e terapeuti: se è vero che questo tipo di utilizzo è dannoso e inefficiente in inglese, in contesti non anglofoni l’impatto negativo potrebbe essere anche maggiore in quanto la cultura può dettare il modo in cui un singolo elabora i fenomeni psicologici. 

L’impatto sulla disinformazione e i contenuti di odio   

Il problema del divario linguistico nell’IA è esasperato anche nei social media. Infatti, i sistemi di moderazione automatica dei contenuti pubblicati online, basati sull’intelligenza artificiale, si sono dimostrati meno efficienti nella rilevazione di contenuti di odio o disinformazione pubblicati in lingue “sottorappresentate” del Sud Globale, da dove peraltro proviene la maggior parte degli utenti delle piattaforme social. 

Un report pubblicato nel 2024 dal Centro di ricerca per la Democrazia e la Tecnologia (CDT) sulla moderazione dei contenuti social pubblicati in arabo magrebino (parlato in Marocco, Algeria, Tunisia e Libia) ha sottolineato che la scarsità di risorse in questa lingua e la mancanza di diversità nei team di ricerca possono impattare notevolmente sulla qualità della moderazione. Ad esempio, molti content creator nel Maghreb hanno notato che Instagram nascondeva immediatamente qualsiasi commento che includesse le parole “Allahu Akbar” (tradotto come “Dio è grande”). Uno dei motivi potrebbe essere che i modelli IA apprendono dagli articoli dei media occidentali l’associazione di questa espressione con il terrorismo, come spiegato da uno studio del 2025 condotto da ricercatrici del CDT, dell’Università di Cornwell e di Exeter. A questo proposito, uno degli esperti di intelligenza artificiale intervistati nello studio ha sottolineato che nei team di ricerca spesso «non c’è nessuno che sottolinea che la popolazione locale usa questa espressione per esprimere la gioia e il dolore quotidiani, al di là dei casi di discorsi di estremismo».

Un altro intervistato, ricercatore specializzato nella lingua swahili, ha evidenziato un simile problema nel software “Perspective” di Google: se negli Stati Uniti la gente usa con disinvoltura la parola inglese “dawg” per riferirsi a un amico, in Kenya questo termine è estremamente irrispettoso. Viceversa, continua il ricercatore, se «negli Stati Uniti la gente pensa che chiamare qualcuno “grasso” sia un insulto al suo aspetto fisico, in Africa il grasso è considerato bello e opulento».

Quindi, il problema della moderazione automatica non è solo e necessariamente nella mancanza di dati, ma anche dalla scarsità di diversità nei team di sviluppo e moderazione. Ad esempio, CDT riporta che alcuni moderatori di lingua araba sono stati assegnati alla moderazione di contenuti in dialetti dell’arabo che non capivano. Soprattutto, non è mistero che le aziende stanzino meno risorse e meno personale per la moderazione di lingue “sottorappresentate”.

Come già rivelato nel 2021 dai file interni di Facebook divulgati dalla whistleblower Frances Haugen, la piattaforma social spendeva l’87 per cento del proprio budget per combattere la disinformazione sui contenuti in lingua inglese, nonostante solo il 9 per cento dei suoi utenti pubblicasse in quella lingua all’epoca. E anche un intervistato dello studio sopracitato, che lavorava presso Meta, ha commentato che all’interno dell’azienda «il team Trust & Safety (che si occupa di moderazione, ndr) dava priorità agli Stati Uniti».

Una gerarchia che ha già avuto impatti importanti al di fuori del mondo virtuale. Dopo il genocidio dei Rohingya in Myanmar, nel 2017, Facebook è stato ampiamente criticato per il suo ruolo nell’aver contribuito all’amplificazione dei discorsi d’odio in quanto ha reagito con lentezza nel riconoscere e moderare i contenuti pubblicati in birmano. Nel 2023, durante le elezioni in Malesia, un articolo pubblicato sul giornale australiano The Conversation ha sottolineato l’enorme presenza di contenuti di odio in malese su TikTok; un fatto che secondo l’autrice sollevava interrogativi sull’efficacia della moderazione dei contenuti in Paesi non anglofoni. 

Sempre nel 2023, nel contesto della guerra su Gaza, l’ONG Human Rights Watch ha rivelato che i profili Instagram di alcuni utenti palestinesi che avevano utilizzato la parola araba “alhamdulillah” (“sia lodato Dio”) e l’emoji della bandiera palestinese sono stati censurati con la dicitura “terrorista”. Meta aveva affermato che la colpa era stata di un bug. 

Un report pubblicato a maggio 2025 sul media no-profit Tech Policy Press, inoltre, evidenzia che le interviste con i lavoratori delle sezioni “Trust & Safety” delle aziende occidentali rivelano che la maggior parte di queste adotta una strategia di moderazione che è indipendente dalla lingua parlata in un determinato mercato: in alcuni casi, ad esempio, i contenuti vengono tradotti automaticamente in inglese e ai moderatori non viene comunicato quale fosse la lingua di partenza. Il valore linguistico-sociale delle parole all’interno del loro contesto originario, dunque, si perde.  

Non sembrano salvarsi del tutto nemmeno le lingue europee, come rivelato da uno studio del 2024 che ha raccolto dati sull’efficienza della moderazione di aziende – tra cui YouTube, Meta, TikTok, e X – soggette al Digital Service Act, il regolamento europeo​​ sui servizi digitali approvato dal Parlamento europeo nel 2022 ed entrato in vigore nel febbraio del 2024. I ricercatori, infatti, affermano che, su alcune piattaforme, determinate lingue non sono moderate del tutto (come il finlandese, l’ungherese o il rumeno su X). A volte, invece, il numero di moderatori non è direttamente proporzionale ai contenuti condivisi. Ad esempio, sempre su X, l’italiano e il bulgaro hanno un numero simile di moderatori, nonostante lo studio sostenga che i post in italiano siano 78 volte più diffusi di quelli in bulgaro.

Verso quali soluzioni si sta andando 

Di fronte a questa problematica, alcune aziende si stanno muovendo per fare sì che sempre più lingue siano incluse nei loro software. Ad esempio, la collaborazione tra Meta e l’azienda indiana Infosys ha ー tra gli altri ー l’obiettivo che LLaMA2, uno dei modelli IA di Meta, possa supportare le 22 lingue ufficiali in India. Negli ultimi anni, le grandi aziende hanno anche iniziato a sviluppare modelli IA multilinguistici, ossia addestrati su svariate lingue contemporaneamente; al momento, però, questi sono risultati meno performanti di quelli addestrati e destinati all’inglese, e soprattutto culturalmente non allineati con tutti i sistemi linguistici che intendono servire. 

Ci sono inoltre svariati progetti indipendenti che si muovono in questa direzione, come Masakhane in Africa, volto a migliorare lo sviluppo dei modelli IA nelle lingue africane. In futuro, secondo l’Istituto di ricerca Ada Lovelace, la minore difficoltà di sviluppo di un modello IA potrebbe inoltre permettere a nuovi attori provenienti da realtà non anglofone di entrare nel mercato, come già successo con Deepseek in Cina

A prescindere dall’area geografica di provenienza, però, è necessario ricordare che nessun modello linguistico IA può essere veramente aculturale o apolitico, e rifletterà sempre i valori dei dati che sono stati usati per addestrarlo (e di chi l’ha creato).  

 

Potrebbero interessarti
Segnala su Whatsapp