Post-training — Cosa significa, esempi, come si usa

Il post-training è quello che fa la differenza tra un modello "grezzo" appena uscito dal pretraining e un assistente effettivamente utile come ChatGPT o Claude.

Fasi tipiche:

Supervised fine-tuning (SFT): si dà al modello esempi di "buone risposte" curati da umani. Impara a rispondere come un assistente.
Reward modeling: si addestra un secondo modello a predire le preferenze umane sulle risposte.
RLHF (Reinforcement Learning from Human Feedback): si usa il reward model per allineare ulteriormente il modello.
DPO (Direct Preference Optimization): tecnica più recente, più semplice, simile a RLHF ma più diretta.
Safety training: si addestra il modello a rifiutare richieste pericolose.
Tool use training: si insegna a chiamare API, fare function calling, usare browser.

Differenza pratica:

Senza post-training: il modello completa testo, può rispondere ma in modo grezzo, può essere sgradevole.
Con post-training: il modello è un assistente educato, utile, che rifiuta cose dannose, segue istruzioni.

Per i modelli aperti, il post-training è la differenza tra una "base" (Llama-Base) e una "instruct" (Llama-Instruct). Per uso pratico vuoi sempre la versione instruct.