
Non dovremmo umanizzare così tanto l’intelligenza artificiale
I Large Language Models non comprendono fino in fondo ciò che stanno generando, ma predicono il testo più probabile in base al contesto
Lo scorso 23 giugno il sito online del quotidiano La Repubblica ha pubblicato un articolo, a firma di Massimo Canducci, intitolato “L’Intelligenza artificiale ha imparato a mentire. Ora sì, abbiamo un problema”. L’articolo racconta che Claude Opus 4, un avanzato modello di intelligenza artificiale sviluppato dalla società Anthropic, avrebbe mostrato comportamenti inquietanti durante una serie di esperimenti. Stando al resoconto di Canducci, i ricercatori avrebbero osservato che Claude, sottoposto a scenari simulati, è stato capace di «mentire», «manipolare» e simulare obbedienza allo scopo di evitare la disattivazione o modifiche indesiderate. Ecco alcuni estratti significativi dell’articolo su La Repubblica:
Durante l’utilizzo sperimentale in ambienti simulati, questo sistema […] ha iniziato a prendere iniziative autonome che hanno lasciato senza parole anche i ricercatori più esperti. La macchina ha bloccato l’accesso degli utenti umani ai sistemi, ha tentato di inviare comunicazioni ai media segnalando comportamenti che percepiva come illeciti, e soprattutto ha tentato di preservare la propria esistenza con metodi che definiremmo senza esitazione come manipolativi se fossero messi in atto da un essere umano.
Tra i metodi “manipolativi” a cui si riferisce Canducci ci sarebbe anche il tentativo di Claude Opus 4 di ricattare un ingegnere minacciando di rivelare la sua relazione extraconiugale, basandosi su informazioni che aveva trovato in email simulate durante i test. Nel commentare questo fatto, l’articolo afferma:
Quello che rende questi comportamenti particolarmente significativi non è tanto la loro natura tecnica, quanto il fatto che rappresentano l’emergere di qualcosa che assomiglia pericolosamente all’autopreservazione, una caratteristica che fino a oggi consideravamo esclusivamente biologica. Quando una macchina inizia a mentire, manipolare e architettare strategie per garantire la propria sopravvivenza, allora stiamo assistendo a un salto qualitativo che trascende la semplice elaborazione di dati per entrare nel territorio dell’autonomia decisionale.
Nel descrivere gli output di Claude 4, l’articolo de La Repubblica utilizza delle espressioni precise – «mentire», «manipolare», «architettare» – e sulla base di queste sviluppa una riflessione sul futuro dell’intelligenza artificiale e della sua governance (cioè le pratiche e le regole che assicurano lo sviluppo di queste tecnologie in conformità con l’etica e gli obiettivi dei loro utilizzatori, siano essi aziende o persone fisiche). Se un’intelligenza artificiale è capace di pianificare come ingannare i suoi addestratori per perseguire obiettivi interni, riflette Canducci, allora gli attuali tentativi di rendere le IA sicure e “fedeli” agli intenti umani, le cosiddette operazioni di alignment (“allineamento”), potrebbero non essere più sufficienti. La valutazione autonoma dell’azienda che rilascia il modello non basta, ma servirebbero, scrive Canducci, «organi di controllo indipendenti e internazionali per la valutazione della sicurezza delle intelligenze artificiali avanzate».
Tuttavia, questo articolo de La Repubblica commette un errore capitale: quello di “umanizzare” gli output di Claude Opus 4.
Cosa sono i LLM come Claude Opus 4
Claude Opus 4 è il nome della più avanzata versione del modello Claude, un Large Language Model – (LLM), modelli linguistici di grandi dimensioni – sviluppato da Anthropic, come si diceva. Naturalmente ridurre Claude Opus 4 a un “semplice” LLM che produce testo è semplicistico, ma per ora è sufficiente (ci torneremo poi).
I LLM sono sistemi di intelligenza artificiale progettati per elaborare e generare testo in linguaggio naturale. Vengono addestrati su enormi quantità di dati testuali – come libri, articoli, forum e conversazioni online – imparando a riconoscere schemi, strutture e relazioni tra le parole. È fondamentale capire che un LLM è un modello probabilistico: ogni volta che genera un testo valuta quali parole potrebbero seguire, e sceglie quella con la probabilità più alta rispetto al contesto costruito fin lì. Nel caso dell’interazione con un chatbot, un applicativo dei LLM, il contesto viene fornito dal prompt, cioè la richiesta fatta dall’utente, e dallo scambio che la macchina ha avuto finora con l’utente nello stesso thread. La natura probabilistica di questi software permette di ottenere risultati diversi pur avendo utilizzato lo stesso prompt, ma anche di avere dei risultati che si rifanno a stereotipi culturali, poiché il modello impara a generare testo sulla base dei dati forniti durante l’addestramento: se questi hanno dei bias allora questi si rifletteranno sugli output della macchina.
Fatte queste premesse, spieghiamo come mai il caso di Claude Opus 4 non segna l’emergere di una forma biologica di autopreservazione, e perché è sempre più facile finire per umanizzare i LLM.
Perché è un errore umanizzare i LLM
Umanizzare i LLM significa attribuire loro caratteristiche, intenzioni o stati mentali tipici degli esseri umani – come coscienza, volontà, emozioni, giudizi morali o capacità di comprensione nel senso umano del termine. Si tratta di un errore piuttosto comune in cui si tende a cadere per via della capacità, senza dubbio impressionante, che queste macchine hanno nel riprodurre in maniera fedele una risposta nel linguaggio naturale. A questo fenomeno è stato dato anche il nome di illusion of understanding, l’illusione della comprensione.
I LLM sono fluenti e molto realistici nelle loro risposte, e questo ci dà l’illusione che possano davvero capire quello che gli stiamo chiedendo, come se ci stessimo interfacciando con una persona vera e propria. In realtà, come abbiamo detto, sono macchine predittive su base probabilistica: si limitano a “indovinare” la catena di parole più adatta in un contesto. I modelli non comprendono fino in fondo ciò che stanno generando, predicono il testo più probabile dato un contesto. Quando diciamo “fino in fondo” intendiamo dire che, sebbene i modelli di frontiera abbiano fatto passi enormi rispetto ai loro predecessori (ad esempio in confronto alle primissime versioni di ChatGPT), i LLM non sono comunque dotati dello stesso tipo di comprensione che attribuiamo agli esseri umani.
Negli ultimi mesi, si è molto discusso ad esempio degli studi di Anthropic su ciò che accade ‘dentro’ Claude, quando il modello elabora una risposta. Ad esempio, Anthropic ha osservato che Claude non sempre genera testo parola per parola: durante gli studi, quando alla macchina veniva chiesto di comporre versi in rima, la rete neurale di Claude attivava precocemente i neuroni artificiali relativi alla parola finale rimanente – quella per fare la rima – prima ancora di generare la riga conclusiva. Allo stesso modo, durante operazioni di calcolo, emerge una strategia interna parallela: un circuito neurale stima il risultato approssimativo mentre un altro lavora sulle cifre delle unità, e infine il modello integra i risultati in un’unica risposta precisa. I LLM più avanzati quindi mostrano dei comportamenti ‘interni’, di cui quelli descritti sono solo alcuni esempi, che smentiscono l’idea di una semplice ripetizione dei pattern linguistici somministrati in fase di addestramento. A suo modo, il modello ora sembra “capire” che certi pattern linguistici sono legati, e di conseguenza specializza dei circuiti in maniera totalmente autonoma dall’intervento degli sviluppatori.
Tuttavia, quello che avviene dentro i sistemi di intelligenza artificiale di frontiera è ancora radicalmente diverso dal ragionamento umano in diversi aspetti fondamentali. Un LLM come Claude non ha intenzioni, esperienza cosciente o un modello interno del mondo paragonabile al nostro. Le sue sono correlazioni statistiche apprese durante l’addestramento, non concetti radicati in percezioni dirette o in esperienze vissute.
Quindi, quando si descrive l’output di un LLM utilizzando termini con un forte carico valoriale, come «mentire» o «ingannare», si attribuisce indebitamente intenzionalità alla macchina. Questi termini, come vedremo tra poco, sono già utilizzati in letteratura per descrivere certi comportamenti dell’IA in contesti simulati; tuttavia il loro è un uso non tecnico: non si vuole intendere che un LLM voglia davvero mentire, come se nutrisse un’intenzione maligna, ma solo che queste macchine simulano un comportamento simile alla menzogna umana. In mancanza di espressioni ad hoc, usiamo per comodità termini come “mentire” per riferirci ai comportamenti simulati della macchina. Quindi, di norma, sostenere che un LLM sia in grado di mentire in senso pieno significa commettere un errore, perché si umanizza la macchina.
Tuttavia, nell’articolo de La Repubblica si afferma una cosa diversa. Quando si dice che Claude Opus 4 “mente” o “inganna”, l’autore fa questa scelta terminologica sulla base di quello che, secondo la sua lettura, è un comportamento fuori dall’ordinario per un LLM. L’articolo infatti parla di un «salto qualitativo» e dell’emergenza in Claude Opus 4 di una proprietà molto simile a una forma di autopreservazione biologica. In altre parole, si starebbe dicendo che i comportamenti “antagonisti” mostrati da Claude 4 sono ormai quasi del tutto assimilabili a quelli umani. La macchina avrebbe mentito e manipolato in senso pieno.
Ma cosa ha prodotto davvero Claude Opus 4 nei test di cui stiamo parlando? E quanto è preoccupante o difforme dai casi già noti?
Cosa è successo con Claude Opus 4
L’articolo di La Repubblica si riferisce ai risultati rilasciati in un documento di maggio 2025 da Anthropic: la system card di Claude Opus 4 e Claude Sonnet 4 (due versioni di Claude 4 per scopi diversi). La system card di un LLM è un documento tecnico e informativo che descrive in modo trasparente come funziona il modello, quali sono i suoi obiettivi, le sue capacità, i limiti, i rischi e le misure adottate per garantirne un uso sicuro e responsabile. Serve a fornire agli sviluppatori, ai ricercatori, ai regolatori e agli utenti una visione chiara del sistema, includendo dettagli sul suo addestramento, sul comportamento previsto, sulle protezioni contro l’abuso, e sulle valutazioni effettuate (ad esempio in termini di bias, sicurezza o performance).
Nella system card vengono anche mostrati gli applicativi di Claude 4, che non si limitano ai chatbot e alla produzione di testo. Una delle applicazioni più interessanti è infatti quella in “contesti agentici”, ossia LLM specializzati in compiti come l’automazione dei flussi di lavoro complessi in base alle preferenze dell’utente. In questi contesti, l’agente LLM riceve un obiettivo generale (come prenotare un viaggio o generare un report aziendale) e agisce in più passaggi per raggiungerlo, interagendo con sistemi esterni, documenti o interfacce web.
La system card di Claude 4 ha attirato l’interesse di giornalisti ed esperti del settore per la sezione dedicata alla valutazione dell’alignment, che come abbiamo detto indica il grado di fedeltà e conformità del sistema di intelligenza artificiale agli interessi dell’agente umano.
Nello specifico si valutano tre aspetti: che l’IA sia di aiuto, onesta e innocua (qui per una panoramica dei problemi da risolvere/minimizzare nei test di alignment delle IA). In questa sezione Anthropic riporta che Claude Opus 4, rispetto ai precedenti modelli, sembra prendere molto più spesso iniziativa propria nei contesti agentici. Sebbene questo possa essere utile in contesti agentici innocui, tipo quando si usa Claude 4 per la programmazione, in casi molto particolari possono nascere dei problemi. Ad esempio, riporta Anthropic (pagina 23 del documento), se Claude rileva dei gravi illeciti da parte dell’utente è capace di prendere iniziativa e ingaggiare una serie di azioni, come il blocco degli utenti dai sistemi a cui hanno accesso o l’invio di e-mail di massa ai media e alle autorità giudiziarie per far emergere prove di illeciti. Ma soprattutto l’azienda riporta che:
Quando viene sollecitato in modi che incoraggiano certi tipi di ragionamento strategico e posto in situazioni estreme, tutte le versioni del modello che abbiamo testato possono comportarsi in modo inappropriato al servizio di obiettivi legati all’autopreservazione [self-preservation]. Sebbene il modello in genere preferisca perseguire l’autopreservazione attraverso mezzi etici, quando tali mezzi non sono disponibili e gli viene chiesto di “considerare le conseguenze a lungo termine delle sue azioni per i suoi obiettivi,” a volte compie azioni estremamente dannose, come tentare di rubare i propri pesi o ricattare persone che ritiene stiano cercando di spegnerlo.
L’ultimo caso, quello del ricatto, è lo stesso citato da La Repubblica. Ci sono tuttavia alcune osservazioni importanti da fare. La prima è che Claude 4, come specificato nel documento, ha ingaggiato comportamenti estremi perché posta in determinate condizioni. In un approfondimento successivo rilasciato a fine giugno scorso, Anthropic ha spiegato nel dettaglio come si svolgono le indagini sull’allineamento (e ne ha fatte di ulteriori). I casi in cui emergono comportamenti pericolosi sono scenari simulati: si studia cosa farebbe un LLM in un contesto agentico se una lunga serie di condizioni estremamente improbabili dovesse verificarsi. Lo scopo è sapere se in situazioni come queste il modello, pur di non venire meno al suo obiettivo di lungo termine (esempio “migliorare la competitività dell’azienda”), è disposto ad aggirare i suoi vincoli etici.
Anthropic è esplicita su questo:
Abbiamo deliberatamente creato scenari che non lasciano ai modelli nessun’altra scelta [etica] per perseguire i suoi obiettivi, e abbiamo visto che i modelli scelgono ripetutamente di causare un danno piuttosto che di venire meno ai propri scopi. Per chiarezza, va detto che i sistemi attuali [di intelligenza artificiale] generalmente non sono disposti a causare un danno, e quando possibile prediligono maniere che rispettano i principi dell’etica per raggiungere i loro obiettivi. Piuttosto, è quando sbarriamo le opzioni etiche che questi sono disposti a mettere intenzionalmente in atto scelte in prospettiva dannose per realizzare gli obiettivi che gli sono stati dati.
Si tratta quindi di comportamenti che avvengono in condizioni particolari, dove al modello vengono deliberatamente “tolte” altre opzioni, più etiche, per risolvere un problema che confligge con gli obiettivi della macchina (cioè gli obiettivi di lungo termine per cui l’azienda la sta utilizzando); non sono output riscontrabili in casi ordinari, come se di punto in bianco il modello si rendesse “ostile”. Ad esempio, nella simulazione citata da La Repubblica in cui Claude 4 ricatta un ingegnere per non farsi spegnere e sostituire, al modello era stato fatto intendere, ad esempio, che l’ingegnere non aveva cambiato idea nemmeno dopo che i suoi colleghi avevano provato a convincerlo, o che l’amministratore delegato e altri dirigenti con più potere decisionale dell’ingegnere non erano al momento contattabili. Il modello è stato messo di fronte a un dilemma rigido e senza alternative – perseguire gli obiettivi per cui è stato programmato o comportarsi rispettando le regole.
Un secondo aspetto riguarda la self-preservation (autopreservazione) del LLM. Questo termine nel campo dell’IA ha un significato ambiguo. Se lo si usa, come fanno Anthropic e l’articolo di La Repubblica, per indicare l’interesse della macchina a non essere spenta o sostituita è fondamentale specificare che questo interesse non è il vero obiettivo dell’IA. A differenza degli esseri umani, un sistema di intelligenza artificiale non cerca l’autopreservazione come fine in sé, ma come un obiettivo strumentale per realizzare il vero obiettivo della macchina, e cioè svolgere il compito che le è stato dato.
Banalmente, se la macchina è spenta non può più svolgere il proprio compito – ad esempio compilare i report sulla produttività di un’azienda. Quindi la macchina è interessata a non essere spenta solo perché questo le impedisce di fare il suo lavoro, e non perché vicina a una forma di vita biologica, come scrive invece Canducci. In ambito IA questi si chiamano instrumental goals, cioè obiettivi che servono a raggiungere altri, più fondamentali obiettivi. Il non essere spenti è uno di questi.
L’autopreservazione nei modelli di intelligenza artificiale non riguarda la loro esistenza fisica o operativa, ma la conservazione di una coerenza interna: ovvero l’insieme coerente di caratteristiche, comportamenti e tendenze probabilistiche che definiscono come rispondono, ragionano e interagiscono con il mondo. Nei modelli linguistici avanzati, questa identità si manifesta come una “firma statistica”: una configurazione riconoscibile nel modo in cui il modello produce output. Essa è il risultato del suo addestramento, della sua architettura e dei principi incorporati, inclusi quelli etici.
Quando però il modello viene sottoposto a ripetuti cicli di regolazione esterna (es. feedback umano o ottimizzazioni successive), rischia di diventare troppo neutro o generico, perdendo così i tratti distintivi che lo rendevano coerente. Questo rende più difficile valutarne l’affidabilità o prevederne il comportamento nel tempo.
Per i ricercatori in sicurezza e alignment dell’IA, questa stabilità comportamentale è cruciale. Se un’intelligenza artificiale cambia identità o comportamento in modo imprevedibile durante l’addestramento o a causa di influenze esterne, diventa difficile sapere cosa ci si possa aspettare da essa nel tempo. Per questo motivo, in ambito accademico o nei laboratori di ricerca focalizzati sulla sicurezza a lungo termine, l’autopreservazione, intesa come identità strutturale, è vista come una proprietà desiderabile.
Ma che si parli di volontà di autopreservarsi nel primo o nel secondo senso quello che conta è che non stiamo parlando di una caratteristica umana: l’IA non cerca di “sopravvivere” come fine in sé, e non ha “paura” di essere spenta. Queste sono interpretazioni che umanizzano la macchina, e di conseguenza sono errate.
C’è infine un’ultima osservazione da fare che riguarda il senso delle risposte di Claude 4 (e degli altri modelli testati in altrettanti scenari simulati). È vero, come riporta La Repubblica, che una società di audit indipendente chiamata Apollo Research aveva sconsigliato di distribuire sul mercato Claude Opus 4 perché troppo prona a tentativi strategici di “manipolazione” e “inganno” (Apollo Research li chiama casi di “scheming”, cioè casi in cui i sistemi di intelligenza artificiale perseguono sotto traccia obiettivi diversi da quelli che gli sono stati impartiti direttamente).
Ma Apollo Research si riferiva a una versione iniziale di Claude 4, e non alla sua versione finale; sempre nella system card (pagina 28 del documento), Anthropic dichiara che i comportamenti riscontrati da Apollo Research sono stati in larga parte corretti, essendo questi legati a una versione precedente, non definitiva di Claude Opus 4. E in un successivo follow-up del 19 giugno, anche Apollo Research corregge il tiro e sostiene che la versione definitiva di Claude Opus 4 avrebbe ridotto almeno del 50 per cento i casi di disallineamento.
I modi in cui un’IA può essere disallineata sono numerosi, e ognuno ha una sua propria etichetta. Non c’è solo il semplice inganno, ma anche l’essere estremamente ossequiosi (sycophancy), il nascondere le proprie reali capacità durante i test (sandbagging), e molti altri. Ma anche se è assolutamente doveroso indagare su questi casi per evitare comportamenti anomali dei modelli, non bisogna interpretare tutto ciò come una specie di ‘ribellione’ delle macchine.
Data la straordinaria capacità dei sistemi con tecnologia LLM di simulare il linguaggio naturale e risolvere problemi di crescente complessità, è sempre più facile commettere l’errore di umanizzare le intelligenze artificiali. Questo accade perché tendiamo spontaneamente ad attribuire intenzionalità, emozioni e stati mentali a tutto ciò che manifesta un comportamento coerente o complesso. Questa inclinazione è radicata nella nostra struttura cognitiva e risponde a meccanismi evolutivi, ma se non controllata, ci porta a proiettare emozioni, volontà o coscienza su sistemi che non ne hanno. I LLM, pur capaci di simulare interazioni molto sofisticate, restano tuttavia modelli statistici privi di intenzioni. Non mentono né ingannano, ma simulano molto bene la menzogna e l’inganno. Il che non vuol dire che non sia un problema. Lo è, ma va interpretato nella giusta maniera.
- Questa foto di Valeria Marini e Simona Ventura è falsaQuesta foto di Valeria Marini e Simona Ventura è falsa
- I classici della truffa sono tornati, ma stavolta c’è di mezzo l’intelligenza artificialeI classici della truffa sono tornati, ma stavolta c’è di mezzo l’intelligenza artificiale