Il decoder è la parte di un modello neurale che genera output un pezzo alla volta. In un LLM generativo, il decoder produce il testo token dopo token, ognuno basandosi su quelli generati prima.
I modelli decoder-only sono quelli che dominano l'IA generativa moderna: GPT, Claude, Gemini, Llama, Mistral. Tutti decoder-only.
Funzionamento base:
- Riceve un input (il prompt).
- Genera il primo token di output.
- Aggiunge quel token al contesto, genera il secondo.
- Continua finché non arriva al token "fine sequenza" o al limite di lunghezza.
È un processo autoregressivo: ogni nuova parola dipende da tutte le precedenti.
Vantaggi del decoder-only:
- Architettura semplice.
- Si scala bene con dimensioni enormi.
- Generazione fluida.
Limiti:
- Generazione sequenziale = lenta. Non si può parallelizzare la generazione di token diversi.
- Difficile cambiare token già generati senza ricominciare.
- Bias accumulati: se il primo token è sbagliato, può portare a derivare tutta la risposta.