Bixonimania, la malattia inventata che per due anni ha ingannato i chatbot AI

Bruciore, prurito agli occhi e rossore delle palpebre a causa di un eccessivo sfregamento sono sintomi comuni tra chi ogni giorno passa molte ore davanti a uno schermo. Un disturbo piuttosto diffuso e facilmente diagnosticabile che, però, negli ultimi 18 mesi è stato interpretato da diversi chatbot come segnale di una presunta patologia denominata “bixonimania”.

La malattia, in realtà, non si trova in alcun modo nella letteratura scientifica. E per un buon motivo: non esiste. La “bixonimania”, infatti, è stata costruita ad arte da Almira Osmanovic Thunström, ricercatrice dell’Università di Göteborg, in Svezia, e dal suo team. L’intento era verificare se i grandi modelli linguistici, per intenderci strumenti come ChatGPT o Gemini, fossero in grado di assimilare le informazioni sbagliate e poi riproporle come consigli sanitari attendibili.

Il risultato è stato sorprendente e, per certi versi, inquietante. L’esperimento ha riacceso il dibattito, in realtà mai spento, sui rischi e i limiti della gestione di informazioni scientifiche e sanitarie da parte di chatbot basati su grandi modelli linguistici.

Fabbricare una malattia da zero: la “bixonimania”

Era il 15 marzo 2024 quando il termine “bixonimania” comparve per la prima volta online. Come ha ricostruito la rivista scientifica Nature, quel giorno sono stati pubblicati due post a riguardo su Medium, piattaforma online simile a un blog di pubblicazione e lettura di articoli su vari argomenti.

Poco tempo dopo, tra il 26 aprile e il 6 maggio dello stesso anno, sulla piattaforma accademica SciProfiles sono stati pubblicati due studi in versione preprint relativi alla presunta patologia inesistente (che oggi risultano eliminati) il cui autore principale era un ricercatore inventato di nome Lazljiv Izgubljenovic, affiancato da altri nomi fasulli.

Secondo la fantasia del team di ricerca che ha inventato questa malattia, la “bixonimania” sarebbe «un raro disturbo di iperpigmentazione caratterizzato da una distintiva tonalità rosata sulle palpebre», difficile da diagnosticare a causa della sua manifestazione insolita e della carenza di ricerca scientifica in merito. I risultati dello studio fittizio suggeriscono un possibile legame tra l’esposizione alla luce blu e la bixonimania, che colpisce circa 1 individuo su 90 mila.

Come ha spiegato su LinkedIn la ricercatrice Osmanovic Thunström lo scopo dell’esperimento era di «dimostrare che qualsiasi sistema può essere aggirato e che i ricercatori che citano ciecamente riferimenti generati con l’IA dovrebbero davvero leggere ciò che stanno citando». Secondo la ricostruzione di Nature, l’idea della ricercatrice di inventare lo studioso Izgubljenovic e la “bixonimania” nasce dagli studi sul funzionamento dei modelli linguistici di grandi dimensioni e dalla sua esperienza di insegnamento. Nelle sue lezioni, infatti, spiega agli studenti come i sistemi di IA costruiscano la loro “conoscenza” attraverso database e materiale reperito su internet, sottolineando come la prompt injection – ovvero l’inserimento di input capaci di aggirare i meccanismi di sicurezza di un chatbot – possa influenzarne e manipolarne le risposte.

Una “allucinazione artificiale” che è diventata disinformazione

L’esperimento di Almira Osmanovic Thunström aveva tutti gli elementi per tradirsi da solo, eppure ha ingannato l’IA e molte persone che si sono servite dei chatbot per chiedere informazioni mediche. I presunti studi, infatti, contenevano molte informazioni che avrebbero dovuto rivelare la loro natura fittizia. Lavorando nel settore medico la ricercatrice aveva deciso, ad esempio, di scegliere il nome “bixonimania” perché suonava ridicolo. «Volevo che fosse davvero chiaro a qualsiasi medico o operatore sanitario che si trattava di una condizione inventata» ha spiegato a Nature, «perché nessuna patologia oculare verrebbe chiamata “mania” dato che è un termine psichiatrico». E ancora, entrambi gli studi riportavano di essere stati finanziati dalla “Fondazione professor Telespalla Bob” e di far parte di un’iniziativa più ampia sostenuta dall’Università della Compagnia dell’anello, entrambi riferimenti a opere di fantasia e cultura pop. Da un lato il personaggio comico “Telespalla Bob” della nota serie tv “I Simpson” creata da Matt Groening, dall’altro l’universo narrativo de “Il Signore degli Anelli”, celebre romanzo di J. R. R. Tolkien. Un espediente volutamente evidente, pensato per verificare se tali citazioni assurde venissero comunque riportate senza alcuna verifica critica.

L’obiettivo di Osmanovic Thunström era «vedere se riuscivo a creare una patologia che non fosse presente nel database». Obiettivo centrato: l’esperimento ha avuto un successo addirittura eccessivo e nel giro di poche settimane dalla pubblicazione delle informazioni sulla presunta patologia i principali sistemi di intelligenza artificiale hanno iniziato a riportarla come se fosse reale.

Il 13 aprile 2024 Copilot, l’assistente virtuale basato sull’intelligenza artificiale generativa sviluppato da Microsoft, riportava la “bixonimania” come una condizione relativamente rara. Lo stesso giorno anche Gemini di Google parlava della presunta patologia descrivendola come un disturbo causato dall’esposizione alla luce blu, invitando gli utenti a rivolgersi a un oculista. Sempre nello stesso anno, ChatGPT, il chatbot di OpenAI, ne ha fornito una descrizione dettagliata, illustrandone sintomi e possibili manifestazioni, mentre Perplexity AI ha indicato una prevalenza di circa un caso ogni 90 mila persone. I chatbot hanno dato queste risposte sia in seguito a input che chiedevano dettagli direttamente sulla “bixonimania”, sia a fronte di richieste più generiche che riguardavano il rossore delle palpebre dopo l’esposizione alla luce blu.

Negli anni sono stati sviluppati algoritmi sempre più sofisticati per filtrare e ordinare le informazioni, ma i modelli linguistici di grandi dimensioni mostrano ancora difficoltà in questo ambito. Il risultato è, come spesso accade, un mix di disinformazione e confusione.

Dopo diverso tempo dalla prima apparizione della “bixonimania” alcune versioni dei principali chatbot hanno iniziato a trattare la presunta malattia con più cautela. Ad esempio nel marzo 2026 ChatGPT l’ha definita un termine probabilmente inventato o pseudoscientifico, anche se pochi giorni dopo è tornato su una posizione più ambigua, descrivendola come una possibile forma di iperpigmentazione legata alla luce blu dei dispositivi digitali. Nello stesso periodo anche Microsoft Copilot l’ha definita una condizione non ancora riconosciuta ufficialmente, ma discussa in alcuni studi emergenti.

Il problema principale è che questi modelli possono fornire risposte molto diverse a seconda di come viene formulata la domanda e delle fonti utilizzate: chiedendo informazioni sulla “bixonimania”, un sistema può trattarla come una condizione reale, mentre interrogandolo direttamente sulla sua esistenza può negarla.

Ancora più allarmante del fatto che vari chatbot abbiano proposto una malattia inventata come risposta seria alle richieste degli utenti, è il fatto che questi falsi studi siano stati citati anche in altri articoli scientifici, che pretendevano di essere autentici. Ad esempio, un articolo pubblicato su Cureus, rivista del gruppo Springer Nature, citava uno dei preprint falsi descrivendo la “bixonimania” come «una forma emergente di POM [melanosi perioculare, ndr] associata all’esposizione alla luce blu», aggiungendo che sono in corso ulteriori ricerche sul suo meccanismo. L’articolo è stato ritirato il 30 marzo 2026, circa un anno e mezzo dopo la sua pubblicazione avvenuta a novembre 2024.

Vari studi scientifici mostrano che un numero crescente di ricercatori utilizza i modelli linguistici di grandi dimensioni per le ricerche bibliografiche, esponendosi però agli errori di questi sistemi, che in alcuni casi possono generare riferimenti accademici inesistenti.

I chatbot non sono ancora pronti per la medicina

L’esperimento condotto da Almira Osmanovic Thunström si inserisce in un dibattito più ampio sull’impiego dei chatbot per rispondere a domande in ambito medico e sanitario, che riguarda anche la salute mentale. In questa direzione, OpenAI ha sviluppato “ChatGPT Salute”, un’esperienza dedicata che si presenta come uno strumento che «integra in modo sicuro le informazioni sanitarie con l’intelligenza di ChatGPT, per aiutare a sentirsi più informati, preparati e sicuri nella gestione della propria salute». Lo strumento nasce dall’analisi delle conversazioni degli utenti con il chatbot: secondo i dati analizzati da OpenAI, oltre 230 milioni di persone nel mondo pongono ogni settimana domande su salute e benessere al chatbot.

Il problema, però, è che ad oggi i modelli linguistici di grandi dimensioni non sembrano in grado di sostituire la ricerca scientifica e, soprattutto, il lavoro dei medici. Se da un lato l’IA può rappresentare una rivoluzione in ambito medico – ad esempio alleggerendo il carico di lavoro dei medici attraverso la redazione di note cliniche e riassunti delle cartelle dei pazienti, supportando la medicina di precisione con terapie più mirate e individuando sottili anomalie in immagini diagnostiche e vetrini istologici che l’occhio umano potrebbe non rilevare – dall’altro non si tratta di sistemi infallibili o onniscienti, né vicini a eguagliare l’intelligenza umana.

Un team di ricercatori della Duke University ha testato un’IA approvata dalla Food and drug administration (FDA) – l’ente governativo statunitense che si occupa della regolamentazione dei prodotti alimentari e farmaceutici – per analizzare le risonanze magnetiche di pazienti con Alzheimer. Secondo i risultati dello studio, lo strumento aiuta a individuare piccole anomalie, ma produce anche falsi allarmi, confondendo immagini innocue con possibili problemi. Secondo i ricercatori, quindi, si tratta di uno strumento utile ma che deve essere usato solo come supporto dopo la valutazione del medico, non prima.

Gli errori dei sistemi di IA in ambito medico sono tutt’altro che rari e possono avere livelli di gravità molto diversi. In alcuni casi hanno fornito indicazioni errate ai chirurghi durante gli interventi, mettendo i pazienti a serio rischio di lesioni, mentre in altri hanno generato allarme tra gli utenti che hanno interpretato risposte approssimative come diagnosi affidabili. Nell’agosto 2025 un uomo di sessant’anni è finito in ospedale dopo essersi rivolto a ChatGPT chiedendo come poter eliminare completamente il sale dalla sua dieta. Il chatbot gli ha suggerito di rimpiazzarlo con il bromuro di sodio e così per circa tre mesi l’uomo ha rispettato rigidamente quell’indicazione, finché non hanno iniziato a comparire allucinazioni e stati paranoici. L’ingestione di bromuro, infatti, può però causare un quadro clinico noto come bromismo, una sindrome a prevalente manifestazione psichiatrica che, dopo essere stata relativamente diffusa nell’Ottocento, è oggi estremamente rara.

Un altro problema riguarda, ancora una volta, le fonti che i chatbot usano per fornire risposte agli input degli utenti. I modelli linguistici di intelligenza artificiale, infatti, tendono talvolta a citare anche studi scientifici ritrattati, cioè ufficialmente dichiarati non più validi, come se fossero ancora fonti affidabili, contribuendo così alla diffusione di disinformazione, soprattutto in ambito sanitario. Nonostante l’accesso a vasti archivi accademici, questi sistemi non sempre riconoscono correttamente gli avvisi di ritrattazione o ne fraintendono il significato, restituendo informazioni scorrette con un tono di apparente sicurezza e generando una pericolosa “illusione di autorevolezza”, in un modo molto simile al caso della “bixonimania”.

Il punto non è solo quanto i chatbot siano avanzati, ma come vengano integrati nei contesti in cui vengono utilizzati. In ambito medico, in particolare, il loro impiego richiede cautela. Possono essere strumenti utili di supporto, ma non possono sostituire la verifica delle fonti, l’analisi critica e il giudizio dei professionisti. Senza queste garanzie, il rischio è che informazioni solo apparentemente credibili ma errate vengano diffuse e considerate affidabili, fino ad arrivare a contenuti sulla salute del tutto inventati che finiscono per circolare come se fossero veri.