Wikipedia sta combattendo contro la “sbobba artificiale”

Gli editor si trovano a dover affrontare un’impennata di contenuti generati con l’intelligenza artificiale e diffusi nelle voci dell’enciclopedia

Anna Toniolo

20 agosto 2025

Con il rapido sviluppo e la crescente diffusione dei modelli linguistici di grandi dimensioni (LLM), aumentano non solo i vantaggi ma anche i rischi legati al loro utilizzo. Da un lato, queste tecnologie hanno facilitato i processi di comunicazione, ad esempio facilitando la traduzione automatica o aprendo nuove strade all’apprendimento. Dall’altro, però, hanno ampliato la portata della disinformazione e della diffusione di notizie false, rendendole sempre più convincenti e difficili da distinguere dalla realtà.

Un caso emblematico di queste nuove sfide si sta manifestando su Wikipedia, la più grande enciclopedia collaborativa del web. Negli ultimi mesi, centinaia di voci sono state compromesse da testi prodotti attraverso l’intelligenza artificiale: citazioni inventate, riferimenti bibliografici casuali e frasi dal tono artificiale hanno iniziato a diffondersi nello spazio editoriale. Per difendersi da questo “attacco informativo”, la comunità di Wikipedia ha scelto la linea dura, introducendo una regola che consente la cancellazione immediata degli articoli sospetti, senza il consueto confronto tra editori.

Un fenomeno che gli esperti hanno già ribattezzato come “AI slop”, che in italiano si può tradurre come “sbobba artificiale”. Si tratta cioè di contenuti creati in massa con l’intelligenza artificiale, spesso privi di controllo e qualità, che rischiano di sommergere il web con testi superficiali, ripetitivi o addirittura falsi. E che sta mettendo a rischio anche la credibilità di Wikipedia.

Cos’è la “AI slop”

“Slop” è un termine tecnico, simile all’ormai più comune “spam”, che indica contenuti di bassa qualità prodotti dall’intelligenza artificiale e sempre più diffusi su Internet. La “sbobba artificiale”, come viene definita in italiano, può essere descritta come l’equivalente digitale del cibo spazzatura: contenuti prodotti in massa attraverso l’intelligenza artificiale, spesso di bassa qualità, privi di valore reale e creati solo per attirare click e generare traffico online. Questi testi, immagini o video appaiono virali e convincenti, ma nascondono informazioni inaccurate, inesattezze o addirittura falsità, come notizie inventate o foto manipolate. A differenza di contenuti autentici e ponderati, l’“AI slop” si caratterizza per frasi fatte, dettagli strani, e una generale superficialità.

Questa “sbobba digitale” non rappresenta solo contenuti di bassa qualità, ma è diventata una vera e propria “spazzatura digitale” che invade Internet, sommergendo piattaforme e contenuti autentici con testi generati automaticamente, falsi e inconsistenti, rendendo sempre più difficile trovare materiale affidabile e minando la fiducia degli utenti.

Inoltre, essendo amplificato in modo automatico, questo materiale rischia di tornare come dati di addestramento per nuove intelligenze artificiali, peggiorando ulteriormente la situazione. E Internet rischia così di trasformarsi in un’immensa “brodaglia” digitale, in cui il contenuto umano autentico si perde tra montagne di slop.

Questo fenomeno si sta diffondendo anche su Wikipedia, l’enciclopedia collaborativa che è ormai è diventata un punto di riferimento per l’informazione online.

Wikipedia sta combattendo contro la “sbobba artificiale”

Modifiche sospette e persino articoli completamente nuovi, pieni di errori, citazioni inventate e altri elementi tipici dei testi generati con l’intelligenza artificiale, continuano a comparire sulla celebre enciclopedia online libera e gratuita.

Uno studio pubblicato nel 2024 da alcuni ricercatori della Princeton University, negli Stati Uniti, ha mostrato che, ad agosto dello stesso anno, circa il 5 per cento delle nuove pagine in inglese era stata creata – del tutto o in parte – utilizzando degli algoritmi. Gli esperti hanno usato due strumenti di analisi, GPTZero e Binoculars, per rivelare questo tipo di contenuti, analizzando anche la Wikipedia italiana dove una quota significativa di articoli contiene tracce di testo prodotto dall’intelligenza artificiale. Nello specifico GPTZero ha rilevato circa il 3 per cento, mentre Binoculars poco meno del 5 per cento.

Due strumenti di analisi, GPTZero e Binoculars, hanno rilevato che fino al 5 per cento degli articoli Wikipedia in inglese pubblicati nell’agosto 2024 contiene contenuti generati con l’intelligenza artificiale. La linea rossa mostra il limite oltre il quale non dovrebbero esserci falsi positivi. Fonte: studio “The Rise of AI-Generated Content in Wikipedia”, Princeton University.

Si tratta di una nuova sfida per uno dei siti web più popolari al mondo. Wikipedia, che permette a chiunque di modificare i suoi articoli, ha combattuto lo spam e il vandalismo fin dalla sua nascita, grazie a una rete di volontari che dedicano il loro tempo per monitorare le modifiche apportate agli articoli e valutare le proposte di nuovi contenuti. Un’ondata di contenuti errati generati con l’IA potrebbe mettere tutto questo a rischio.

Gli editor dell’enciclopedia hanno individuato, ad esempio, una pagina – poi rimossa – che parlava di un albergo a Villa Llao Llao, ma in realtà descriveva tutta la regione argentina con lo stesso nome. In altre parole, il testo confondeva un singolo luogo con un’area più grande, creando informazioni sbagliate o fuorvianti. Oppure, un articolo completamente inventato su una presunta fortezza ottomana chiamata “Amberlihisar”, che non è stato segnalato dai volontari di Wikipedia per quasi un anno. Ad oggi, la pagina con questo contenuto è segnalata con una nota in inglese che chiarisce: «questa pagina è una copia di un articolo bufala precedentemente cancellato».

Nel 2023 gli editor di Wikipedia hanno formato un team, chiamato “WikiProject AI Cleanup” dedicato a individuare e correggere proprio gli errori dovuti alla presenza di contenuti generati con l’intelligenza artificiale sul sito. Il progetto ha sviluppato le proprie linee guida per aiutare gli editor a riconoscere i segni della scrittura prodotta dall’IA, in particolare cercando frasi comunemente generate da chatbot come ChatGPT. Un esempio è la pagina di Wikipedia sull’ospedale psichiatrico dell’Illinois Chester mental health center, che nel novembre del 2023 includeva la frase «As of my last knowledge update in January 2022» (in italiano: «Fino al mio ultimo aggiornamento, risalente a gennaio 2022»), una frase tipicamente generata dai modelli di IA per chiarire fino a che punto si spingano gli aggiornamenti.

Recentemente, però, il team di gestione dell’enciclopedia ha adottato una nuova politica che conferisce a un amministratore della piattaforma di cancellare rapidamente un articolo generato con l’intelligenza artificiale. In genere, gli articoli segnalati per la rimozione sulla piattaforma devono passare attraverso un periodo di discussione di sette giorni durante i quali i membri della comunità decidono se l’articolo debba essere cancellato o meno. La nuova regola permette agli amministratori di Wikipedia di saltare il dibattito comunitario quando un articolo risulta chiaramente scritto attraverso l’uso dell’intelligenza artificiale e non è stato revisionato dall’autore umano che lo ha caricato.

La piattaforma aveva già un processo di cancellazione rapida, in cui una persona segnala un contenuto, un amministratore controlla se quel contenuto viola le politiche di Wikipedia ed eventualmente lo cancella senza il periodo di discussione. Per esempio, possono essere segnalati per la cancellazione rapida articoli composti interamente da frasi senza senso, testi privi di significato o quello che Wikipedia definisce “assurdità manifesta”. Lo stesso vale per le inserzioni pubblicitarie, mentre è diverso il caso di articoli segnalati perché probabilmente non rilevanti, che coinvolgono una valutazione più soggettiva e che, quindi, richiede un confronto e una discussione più strutturata prima della rimozione.

La maggior parte dei contenuti sospettati di essere scritti con l’IA ricade in quest’ultima categoria, perché spesso mancano prove certe. Come ha spiegato a 404 Media Ilyas Lebleu, fondatore del progetto WikiProject AI Cleanup, riconoscere con sicurezza testi generati da un modello linguistico è difficile poiché esistono alcuni indizi, ma non sempre sono evidenti, e il rischio è cancellare ingiustamente contenuti autentici. Per affrontare questo problema, quindi, la comunità di Wikipedia ha deciso, con una nuova politica, di consentire la cancellazione rapida degli articoli chiaramente prodotti da un’IA, a patto che rispettino due condizioni generali. La prima è la presenza nel testo in esame di frasi che rivelano in maniera chiara che quel contenuto è stato generato da un modello linguistico come ad esempio «fino all’ultimo aggiornamento» o «ecco il tuo articolo di Wikipedia su…», o ancora «in quanto grande modello linguistico…», cioè segnali inequivocabili che il testo è stato copiato e incollato da un chatbot che l’ha generato.

La seconda condizione, invece, riguarda la presenza di citazioni chiaramente errate. La stessa Wikipedia spiega che questo può tradursi in diversi tipi di errori come citazioni con una temporalità incoerente — una fonte del 2020 utilizzata per un evento del 2022 —, o riferimenti bibliografici che rimandano a contenuti completamente estranei tra loro, ad esempio uno studio scientifico su una specie di coleottero che era stato citato a sostegno di un articolo di informatica, oppure fonti che attribuiscono in maniera sbagliata l’autore o la pubblicazione.

Ilyas Lebleu ha descritto, sempre a 404 Media, la cancellazione rapida come una sorta di cerotto, un rimedio immediato capace di affrontare solo i casi più evidenti. Il problema legato ai contenuti generati dall’IA, tuttavia, è destinato a rimanere, perché si moltiplicheranno le voci prodotte artificialmente che non rientrano nei criteri previsti da questa procedura. Allo stesso tempo, ha sottolineato che l’intelligenza artificiale potrebbe rivelarsi uno strumento prezioso e persino una risorsa positiva per il futuro di Wikipedia.

La Wikimedia Foundation, cioè la società senza scopo di lucro che gestisce Wikipedia, in un comunicato stampa rilasciato ad aprile 2025, ha dichiarato di aver valutato l’idea di sviluppare strumenti basati sull’intelligenza artificiale per supportare i moderatori di Wikipedia, agevolando l’automazione di alcune attività, l’inserimento di nuovi redattori e la traduzione degli articoli. Nonostante ciò, non tutti gli esperimenti con l’IA proposti dalla fondazione sono stati accettati dalla comunità di Wikipedia. Ad esempio, nel giugno 2025 la Wikimedia Foundation ha abbandonato il progetto sperimentale che prevedeva l’aggiunta di riassunti generati dall’IA a ogni articolo, a seguito delle proteste di molti redattori.

La Wikimedia Foundation sta inoltre sviluppando attivamente uno strumento chiamato Edit Check, pensato per supportare soprattutto i nuovi contributori nel rispettare le politiche e le linee guida della piattaforma. A differenza di molte soluzioni basate sull’intelligenza artificiale, Edit Check si fonda su un approccio diverso, mirato a fornire un aiuto pratico e immediato. Oltre a ricordare agli autori di inserire le necessarie citazioni quando scrivono testi lunghi senza riferimenti, lo strumento verifica anche il tono dei contenuti, assicurandosi che rimanga sempre neutrale.

La fondazione sta lavorando anche all’aggiunta di una funzione chiamata “Paste Check”. Questa novità chiederà agli utenti che incollano lunghi blocchi di testo negli articoli di confermare se quel contenuto sia davvero frutto del loro lavoro. Nel frattempo, i contributori hanno suggerito varie idee per migliorare lo strumento. Tra queste, c’è chi ha proposto di chiedere agli autori sospettati di aver usato l’intelligenza artificiale di indicare con precisione quali parti del testo siano state generate da un chatbot.

In definitiva, la sfida della “sbobba artificiale” mette in luce quanto sia delicato il confine tra tecnologia e affidabilità dell’informazione online. Wikipedia, con le sue regole e i suoi volontari, rappresenta uno dei primi baluardi contro la diffusione incontrollata di contenuti generati con l’intelligenza artificiale, ma la crescente mole di questi testi richiede strumenti sempre più sofisticati e un impegno costante della comunità.

Intelligenza artificiale

Potrebbero interessarti

Le piattaforme tecnologiche non stanno mantenendo la promessa di etichettare i contenuti generati con l’IA
Alexios Mantzarlis, Nasha Dutta
Alexios Mantzarlis, Nasha Dutta
Una verifica condotta da Indicator su centinaia di immagini e video generati con IA rivela che le piattaforme spesso non etichettano questi contenuti

Le piattaforme tecnologiche non stanno mantenendo la promessa di etichettare i contenuti generati con l’IA
Lo sport è una miniera d’oro per chi vuole disinformare con l’IA
Francesca Capoccia
Francesca Capoccia
Dalle storie di beneficenza dei tennisti fittizie ai video delle cestiste che insultano le avversarie: i diversi modi in cui l’IA ha inquinato il racconto sportivo

Lo sport è una miniera d’oro per chi vuole disinformare con l’IA