Pretraining

[pri-trèining]

Prima fase di addestramento di un modello, su tantissimi dati generici. Il modello impara conoscenza generale prima di essere specializzato.

Il pretraining è la prima fase di addestramento di un modello IA, dove il modello viene esposto a enormi quantità di dati generici per imparare conoscenza di base ampia.

Per gli LLM, il pretraining significa: leggere miliardi di parole prese da Internet, libri, articoli, codice. Il modello impara grammatica, fatti, codice, ragionamento di base, stili di scrittura. Tutto.

Caratteristiche:

  • Scala enorme: trilioni di token, mesi di calcolo su migliaia di GPU.
  • Costo: decine o centinaia di milioni di dollari per i modelli frontier.
  • Self-supervised: il modello impara da solo dai dati senza etichette umane (predice la prossima parola, ecc.).
  • Generalismo: il modello impara di tutto un po', non specializzato.

Dopo il pretraining viene il post-training (fine-tuning, RLHF, ecc.) che specializza il modello per essere utile, gentile, sicuro, allineato.

Foundation model = modello che ha completato il pretraining su scala massiva. Da quello si possono derivare versioni specializzate per task diversi senza dover ripartire da zero.

Curiosità: il pretraining di GPT-3 è costato circa 5 milioni di dollari. Quello di GPT-4 è stimato sui 100 milioni. Quello dei modelli frontier 2026 si stima sui 500M-1B di dollari. È diventato un gioco da pochi giocatori.