Transformer — Cosa significa, esempi, come si usa

Il Transformer è il tipo di rete neurale inventato da Google nel 2017 (paper "Attention is All You Need"). È l'architettura che sta sotto a praticamente tutti i grandi modelli di linguaggio moderni: GPT, Claude, Gemini, Llama, Mistral, ecc.

La grande innovazione del Transformer è il meccanismo di attenzione (attention): il modello, invece di leggere il testo parola per parola dimenticando le precedenti, può "guardare" tutte le parole della frase contemporaneamente e capire quali sono in relazione tra loro.

Esempio: nella frase "Il gatto, dopo aver mangiato il pesce che era nel piatto, si addormentò", per capire chi si addormentò il modello deve "guardare indietro" fino al gatto. Le architetture pre-Transformer (RNN, LSTM) facevano fatica con frasi lunghe. I Transformer no.

Tecnicamente: i Transformer hanno tante teste di attenzione (multi-head attention), processano in parallelo (veloci da addestrare su GPU), scalano bene con la dimensione (più dati + più parametri = meglio).

"GPT" sta per Generative Pre-trained Transformer. La T è quello.

Per chi non sviluppa IA: capire i dettagli tecnici del Transformer non serve. Capire che è la base di tutto sì, perché spiega perché modelli diversi hanno comportamenti simili (sono tutti Transformer con varianti).