Il post-training è quello che fa la differenza tra un modello "grezzo" appena uscito dal pretraining e un assistente effettivamente utile come ChatGPT o Claude.
Fasi tipiche:
- Supervised fine-tuning (SFT): si dà al modello esempi di "buone risposte" curati da umani. Impara a rispondere come un assistente.
- Reward modeling: si addestra un secondo modello a predire le preferenze umane sulle risposte.
- RLHF (Reinforcement Learning from Human Feedback): si usa il reward model per allineare ulteriormente il modello.
- DPO (Direct Preference Optimization): tecnica più recente, più semplice, simile a RLHF ma più diretta.
- Safety training: si addestra il modello a rifiutare richieste pericolose.
- Tool use training: si insegna a chiamare API, fare function calling, usare browser.
Differenza pratica:
- Senza post-training: il modello completa testo, può rispondere ma in modo grezzo, può essere sgradevole.
- Con post-training: il modello è un assistente educato, utile, che rifiuta cose dannose, segue istruzioni.
Per i modelli aperti, il post-training è la differenza tra una "base" (Llama-Base) e una "instruct" (Llama-Instruct). Per uso pratico vuoi sempre la versione instruct.