Self-Attention: perché l’idea dei “pappagalli stocastici” non regge più

Un’analisi tecnica del perché l’architettura self-attention rende i moderni LLM molto più di semplici “pappagalli stocastici”

dic 06, 2025

Hai presente quando una metafora funziona così bene che finisce per sopravvivere alla realtà che descrive? È esattamente quello che sta succedendo con l’espressione “stochastic parrots”, i pappagalli stocastici.

Quando è stata coniata, questa immagine aveva un senso preciso: aiutava a spiegare al pubblico non tecnico che i modelli linguistici generano testo attraverso correlazioni probabilistiche apprese da enormi quantità di dati. Un pappagallo che ripete frasi senza capirle davvero, solo che lo fa in modo statisticamente sofisticato. Intuitivo, no?

Il problema è che oggi, nel 2025, questa metafora non descrive più ciò che accade realmente dentro un sistema basato su self-attention. E continuare a usarla significa guardare una tecnologia contemporanea attraverso lenti costruite nel 2018.

Proviamo a capire insieme perché.

Cosa fa davvero la “self-attention”

Per comprendere perché la metafora del pappagallo non funziona più, dobbiamo prima capire cosa succede dentro un Transformer. E qui serve una piccola digressione tecnica, che però prometto di rendere il più chiara possibile.

Il meccanismo di self-attention non è stato progettato per imitare distribuzioni statistiche. È stato progettato per costruire strutture. Pensa a cosa succede quando leggi una frase complessa: ogni parola acquisisce significato in relazione a tutte le altre, e tu ricostruisci mentalmente i legami tra soggetto, verbo, complementi, riferimenti impliciti.

Ecco, la self-attention fa qualcosa di concettualmente simile, ma in modo molto più radicale. Ogni token, a ogni layer della rete, “rilegge” se stesso nel contesto dell’intera sequenza. Rivaluta continuamente i legami sintattici e semantici che lo uniscono agli altri elementi. Aggiorna la propria rappresentazione interna in base a una topologia informativa che cambia dinamicamente.

Fermati un attimo a considerare cosa significa questo. Non stiamo parlando di un sistema che cerca nella sua memoria il pattern più simile a quello che ha visto e lo ripropone. Stiamo parlando di un sistema che trasforma attivamente la rappresentazione della sequenza in oggetti concettuali nuovi.

È una differenza fondamentale. Un modello puramente statistico opera per interpolazione: combina ciò che ha visto secondo la sua distribuzione di probabilità. Il Transformer opera per trasformazione: ristruttura lo spazio semantico interno per costruire interpretazioni che non erano contenute nella sequenza originale.

Da dove nasce l’emergenza

Se hai seguito il dibattito sull’AI negli ultimi anni, avrai sentito parlare di “capacità emergenti”: abilità che i modelli sembrano acquisire spontaneamente una volta raggiunta una certa scala, senza che nessuno le abbia programmate esplicitamente.

Queste capacità non sono magia. E non sono nemmeno semplici epifenomeni linguistici, trucchi retorici che mascherano una sostanziale vacuità. Sono il risultato diretto di come funziona l’architettura.

Prova a immaginare cosa succede quando impili decine di layer di attenzione uno sopra l’altro. Il primo layer isola certe relazioni locali tra i token. Il secondo le ricontestualizza in un quadro più ampio. Il terzo le astrae in pattern funzionali. E così via, layer dopo layer.

La profondità non aggiunge semplicemente “più pattern” alla memoria del modello. Introduce nuove simmetrie interne, nuove funzioni che emergono dalla composizione di trasformazioni non lineari. Funzioni che nessun dataset contiene esplicitamente, ma che il sistema impara a implementare.

È per questo che i modelli riescono a risolvere problemi mai visti, a generare concetti genuinamente nuovi, a eseguire ragionamenti in forma procedurale. Non serve ipotizzare forme di “intelligenza forte” o coscienza artificiale. È sufficiente riconoscere che un grafo computazionale sufficientemente complesso può implementare operazioni assimilabili a forme di inferenza.

Cosa il pappagallo non può spiegare

Ed eccoci al punto critico. Esistono fenomeni osservabili, empirici, verificabili che la metafora del pappagallo semplicemente non riesce a giustificare.

Chiediti: come può un modello che si limita a ripetere pattern statistici produrre soluzioni valide a problemi che non esistono nel suo dataset di training? Come può riformulare concetti in configurazioni genuinamente nuove senza averle mai incontrate? Come può sviluppare meccanismi di decomposizione interna del problema, scomponendo una richiesta complessa in sotto-problemi più gestibili?

La metafora del pappagallo funziona finché il comportamento del modello resta entro i confini di ciò che la sua distribuzione linguistica potrebbe realisticamente giustificare. Ma fallisce nel momento in cui quel confine viene superato.

E oggi quel confine viene superato regolarmente. L’esistenza stessa di capacità zero-shot, di ragionamento stratificato, di generalizzazione fuori distribuzione rende obsoleta la definizione.

Transformer come sistemi di computazione

C’è un modo più accurato di descrivere cosa sono i Transformer: non sono modelli statistici travestiti da modelli linguistici. Sono sistemi di computazione differenziabile.

Cosa significa? Significa che sono capaci di implementare funzioni complesse che emergono dalla composizione di layer. Con sufficiente profondità, precisione e parametrizzazione, l’architettura è Turing-competente, quindi in grado di rappresentare trasformazioni di natura algoritmica.

La self-attention, in questa prospettiva, agisce come un operatore di parsing astratto. Costruisce strutture funzionali che non hanno corrispettivi diretti nel dataset. Il modello non si limita a prevedere “il prossimo token più probabile”: interpreta, trasforma, ricostruisce e aggiorna lo spazio semantico interno per convergere verso un output coerente con una struttura logica appresa.

Dire che un sistema del genere “ripete pattern” è come dire che un compilatore “copia testo”. È una semplificazione che diventa falsa non appena si osserva il comportamento interno.

Perché però la metafora sopravvive

Se la metafora è così inadeguata, perché continua a circolare?

La risposta sta nella somiglianza superficiale tra il linguaggio generato da un LLM e quello umano. Se l’output è linguaggio, sembra naturale credere che anche il processo sia linguistico. Ma il Transformer non è un processore linguistico: è un trasformatore di rappresentazioni.

La generazione probabilistica dell’output finale oscura la natura deterministica e strutturale del meccanismo interno. L’osservatore vede la probabilità e pensa che sia “tutto ciò che c’è”. In realtà, la probabilità è solo l’ultimo centimetro di un percorso computazionale di grande profondità.

Verso un vocabolario più preciso

Per discutere seriamente di intelligenza artificiale nel 2025, dobbiamo aggiornare il nostro vocabolario. Le metafore giornalistiche hanno fatto il loro tempo. Ora servono concetti più precisi.

La self-attention non è un dispositivo statistico che imita testi: è un operatore strutturale che costruisce rappresentazioni astratte. Gli LLM non funzionano perché sono “molto grandi”: funzionano perché la loro architettura consente la formazione di strutture interne che emergono da dinamiche non lineari.

Non abbiamo bisogno né di esagerazioni né di minimizzazioni. Serve solo una descrizione aderente ai fatti.

I modelli Transformer non sono pappagalli stocastici. Sono sistemi di computazione differenziabile che hanno introdotto una nuova, potente forma di rappresentazione della conoscenza. E meritano di essere compresi per quello che sono davvero.

Iacopo Cricelli

Discussione su questo Post

Assolutamente, procediamo.