Il pretraining è la prima fase di addestramento di un modello IA, dove il modello viene esposto a enormi quantità di dati generici per imparare conoscenza di base ampia.
Per gli LLM, il pretraining significa: leggere miliardi di parole prese da Internet, libri, articoli, codice. Il modello impara grammatica, fatti, codice, ragionamento di base, stili di scrittura. Tutto.
Caratteristiche:
- Scala enorme: trilioni di token, mesi di calcolo su migliaia di GPU.
- Costo: decine o centinaia di milioni di dollari per i modelli frontier.
- Self-supervised: il modello impara da solo dai dati senza etichette umane (predice la prossima parola, ecc.).
- Generalismo: il modello impara di tutto un po', non specializzato.
Dopo il pretraining viene il post-training (fine-tuning, RLHF, ecc.) che specializza il modello per essere utile, gentile, sicuro, allineato.
Foundation model = modello che ha completato il pretraining su scala massiva. Da quello si possono derivare versioni specializzate per task diversi senza dover ripartire da zero.
Curiosità: il pretraining di GPT-3 è costato circa 5 milioni di dollari. Quello di GPT-4 è stimato sui 100 milioni. Quello dei modelli frontier 2026 si stima sui 500M-1B di dollari. È diventato un gioco da pochi giocatori.