Logo

L’intelligenza artificiale è diventata il principale strumento di fact-checking su X

Sulla piattaforma di Elon Musk Grok ha di fatto sostituito le Community Notes. E questa non è per niente una buona notizia

2 febbraio 2026
Condividi

Gli utenti di X adorano chiedere a Grok di fare fact-checking. Basta cercare “@grok is this true?” sulla piattaforma per vedere quante richieste di questo tipo vengono fatte ogni minuto. 

In effetti, questa chiave di ricerca è stata il singolo messaggio più comune inviato al chatbot di IA nei sei mesi successivi all’integrazione di Grok su X, secondo un nuovo working paper di Thomas Renault, Mohsen Mosleh e David Rand. I ricercatori hanno rilevato che 447.083 tweet hanno taggato il bot per chiedere fact-check di altri post tra marzo e settembre 2025. Includendo anche altri modi con cui gli utenti hanno chiesto aiuto per la verifica, i ricercatori stimano che su X siano state fatte quasi 1,4 milioni di richieste di fact-checking a Grok e a Perplexity, un altro strumento di IA. Questo rappresenta il 7,6 per cento di tutte le interazioni con i due chatbot. 

Pur tenendo conto del carattere ironico di alcune ricerche, sembra esserci un forte appetito per il fact-checking automatizzato sulla piattaforma social di Musk.

Questo aumento del fact-checking via IA potrebbe, in ultima analisi, influire sulla popolarità di Community Notes, secondo un altro working paper di Yingxin Zhou e Jingbo Hou. Zhou e Hou hanno usato i dati dei tre mesi precedenti all’introduzione di Grok per costruire una proiezione della partecipazione degli utenti al programma di fact-checking dal basso di X, se il chatbot non fosse mai stato introdotto. Hanno riscontrato che richieste di note, collaboratori, note scritte e valutazioni delle note sono tutte diminuite in modo statisticamente significativo nei tre mesi successivi al lancio di Grok.

Il paper di Renault e colleghi ha anche riconosciuto «una sostanziale riduzione del numero di Community Notes proposte» dopo l’introduzione di Grok. Pur precisando che il lavoro «non fornisce evidenze di un effetto causale», gli autori ipotizzano che «i modelli linguistici di grandi dimensioni (LLM) potrebbero essere più un sostituto che un complemento per le Community Notes».

Non è un mistero, Community Notes è già in uno stato di lieve declino. Questo è stato in parte camuffato dall’introduzione di collaboratori IA nel settembre 2025. Gli autori automatizzati hanno gradualmente aumentato la loro quota di note “utili” aggiunte ai post su X, da una media dell’11 per cento a dicembre a circa il 18 per cento nelle prime settimane di gennaio 

Gli autori artificiali delle Community Notes possono indebolire la struttura di incentivi per i collaboratori umani. Ma Grok potrebbe ora rendere ridondante l’intero programma. Cosa si guadagnerebbe, e cosa si perderebbe, se ciò accadesse? Mettiamo insieme i risultati di Renault, Rand e Mosleh con una revisione qualitativa delle risposte di Grok e delle Community Notes pubblicate a gennaio, per abbozzare una risposta provvisoria. 

La prima cosa, e la più ovvia: i fact-check di Grok sono immediati e arrivano in genere uno o due minuti dopo la richiesta dell’utente. Community Notes può richiedere gran parte di una giornata per essere proposta, valutata e infine aggiunta a un post. L’accuratezza è la priorità nel fact-checking. Ma conta anche la velocità.

Grok vince anche sulla scala. Secondo la nostra analisi, nei primi 19 giorni di quest’anno il chatbot ha risposto a circa 102 mila richieste di fact-checking. Sono più del doppio delle 43.440 Community Notes proposte nello stesso intervallo di tempo. (Una differenza chiave è che le risposte di Grok sono tutte pubbliche su X; la stragrande maggioranza delle Community Notes, invece, è visibile solo sul portale dedicato.)

Inoltre, Community Notes sembra concentrarsi su un numero minore di bersagli. Secondo Renault e colleghi, «il numero di tweet distinti coperti ogni giorno da un fact-check effettuato da un LLM, alla fine di settembre 2025, è all’incirca cinque volte superiore al numero di tweet per i quali viene proposta una Community Note».

Questi numeri sottostimano in realtà l’output complessivo del fact-checking di Grok perché stiamo confrontando le risposte del chatbot solo in inglese con l’intero corpus di Community Notes.

Secondo Renault, Rand e Mosleh, il fact-checking via IA copre spesso l’attualità. Il tema più frequente nel loro campione è “Politica ed elezioni” (20,9 per cento delle verifiche di Grok), seguito da “Guerra e geopolitica” (15,3 per cento) ed “Economia e finanza” (8,9 per cento). I ricercatori hanno anche scoperto che «i principali temi settimanali risultano allineati con i maggiori sviluppi di attualità nel periodo del nostro campione, inclusi eventi come i dazi di Trump ad aprile, il conflitto tra Iran e Israele a giugno o l’assassinio di Charlie Kirk a settembre».

La ricerca di Renault e colleghi esplora anche come Grok abbia trattato affermazioni di persone con diversi orientamenti politici. Questo è particolarmente rilevante dato che Musk ha presentato Grok come antidoto ai presunti bias dei media mainstream, di Wikipedia e di altre istituzioni deputate all’accertamento dei fatti. 

Un risultato rilevante: Grok 3 ha valutato come false il 40 per cento delle affermazioni e dichiarazioni di utenti con inclinazione repubblicana, rispetto al 31 per cento delle affermazioni provenienti da account con inclinazione democratica. La differenza si è ridotta dopo il rilascio di Grok 4, che i ricercatori hanno detto essere «coerente con uno spostamento verso destra dell’orientamento del modello». Il risultato è comunque in linea con un lavoro peer-reviewed dello stesso trio di ricerca che ha scoperto anche come Community Notes corregga più spesso gli utenti con inclinazione repubblicana. 

E la qualità dei fact-check di Grok? È più difficile da valutare su larga scala, ma i ricercatori l’hanno analizzata in due modi.

Primo: hanno assunto tre fact-checker per valutare un campione di 100 tweet e hanno riscontrato che «Le valutazioni di Grok-3 coincidevano con quelle di un fact-checker selezionato casualmente nel 54,5 per cento dei casi». Anche se molta della discordanza restante riguardava verdetti “non certi”, Grok e i fact-checker sono arrivati a conclusioni opposte circa nel 20 per cento dei casi.

I tre fact-checker, inoltre, non erano sempre d’accordo tra loro su alcune valutazioni, anche se meno spesso che con Grok. Quindi è difficile capire cosa dedurre esattamente da questi risultati.

Sono emerse divergenze anche quando i ricercatori hanno confrontato i fact-check di Grok con le community notes considerate “utili”. Mentre il chatbot ha valutato come falsi il 66 per cento dei post segnalati come fuorvianti dai contributori di Community Notes, ha anche sostenuto che il 25 per cento fosse in realtà vero.

Per farsi un’idea migliore della qualità dei fact-check di Grok, abbiamo esaminato diversi giorni di risposte e ci siamo concentrati su due micro casi di studio.

Per prima cosa abbiamo valutato i 38 post che Grok ha pubblicato il 24 gennaio in risposta a domande in stile “is this true?” che menzionavano Alex Pretti, l’infermiere ucciso da agenti ICE a Minneapolis. Abbiamo concluso che 11 post descrivevano accuratamente l’incidente. Altri 20 oscillavano tra le evidenze dei video e le false affermazioni del Dipartimento per la Sicurezza Interna degli Stati Uniti secondo cui Pretti aveva estratto un’arma contro gli agenti. (Anche i media tradizionali, all’inizio, hanno faticato a inquadrare le menzogne del DHS).

Abbiamo concluso che 7 dei 38 post di Grok erano imprecisi. Quattro amplificavano un fraintendimento virale sui timestamp di un’immagine della pistola di Pretti. Due accusavano falsamente Pretti di aver affrontato ICE “armato” o “brandendo” una pistola e “non un telefono” (Un’altra risposta di Grok, fuori dal campione, faceva la stessa affermazione e ha ottenuto 12,7K visualizzazioni.) Le imprecisioni durante un evento in diretta sono comprensibili. Ma sono anche pericolose e del tutto inappropriate per uno strumento integrato in un mezzo che molte persone usano per informarsi sulle notizie dell’ultima ora.

Abbiamo anche esaminato tutti i fact-check di Grok pubblicati il 14 gennaio in risposta a post di Elon Musk. Su 23 tweet con affermazioni realmente verificabili (a differenza delle opinioni), solo quattro avevano anche Community Notes proposte (comunque non visibili). Due affermazioni riguardavano presunte irregolarità nelle registrazioni elettorali in Michigan e Oregon; le risposte di Grok erano grossomodo equivalenti alle Community Notes e fornivano per lo più contesto utile alle allusioni di Musk su una frode elettorale su larga scala. Infine, c’era un post in cui a Grok è stato chiesto di fare fact-check di un’affermazione su se stesso. Si trattava dell’affermazione fuorviante di Musk secondo cui non era «a conoscenza di alcuna immagine di nudo di minorenni generata da Grok. Letteralmente zero». 

Pur potendo superare un vaglio legale — Musk diceva di essere «non a conoscenza» che foto del genere esistessero — il post nel suo complesso richiede un contesto importante. Le prove esaustive che Grok sia stato usato per generare nudi non consensuali, anche di minori, sono state inquadrate dal chatbot come un’affermazione contestata. Anche le Community Notes sullo stesso post sono confuse. Alcune forniscono contesto rilevante, mentre altre difendono Musk dicendo che «Grok non cambia il fatto che i falsi nudi esistono da prima dell’avvento dell’IA».

In generale, nessuno dei due casi di studio suggerisce che le Community Notes proposte, nel loro insieme, siano migliori della risposta media di Grok. Una nota delirante (scritta dall’intelligenza artificiale) nel nostro campione sosteneva che Pretti fosse in realtà «Muhammed Hussein, ucciso dalla polizia di San Jose a gennaio 2026 dopo aver commesso un crimine violento».

Ma Community Notes ha un meccanismo di filtraggio incorporato, che richiede che utenti con background diversi trovino una nota utile prima che venga mostrata su X. È raro che una nota davvero fuorviante superi questo filtro. Come dimostra il caso della teoria del complotto Crabtree, l’algoritmo di filtraggio può essere lento nel riconoscere la verità, ma in genere è resistente alle falsità. 

Grok non ha un filtro del genere. E anche se le sue risposte sono per lo più destinate ai singoli utenti – in genere la persona che chiede il fact-check – a volte riescono a entrare nella conversazione pubblica e a essere viste da decine di migliaia di utenti.Serve molto più lavoro per rendere Grok più adatto al compito difficile e spinoso di verificare informazioni contestate, soprattutto durante eventi di breaking news. Sfortunatamente, è improbabile che questo lavoro venga considerato una priorità da xAI.

Potrebbero interessarti
Segnala su Whatsapp