Post-training

[post-trèining]

Fase successiva al pretraining, dove un modello generico viene rifinito per essere utile, sicuro e allineato. Include fine-tuning supervisionato, RLHF.

Il post-training è quello che fa la differenza tra un modello "grezzo" appena uscito dal pretraining e un assistente effettivamente utile come ChatGPT o Claude.

Fasi tipiche:

  1. Supervised fine-tuning (SFT): si dà al modello esempi di "buone risposte" curati da umani. Impara a rispondere come un assistente.
  2. Reward modeling: si addestra un secondo modello a predire le preferenze umane sulle risposte.
  3. RLHF (Reinforcement Learning from Human Feedback): si usa il reward model per allineare ulteriormente il modello.
  4. DPO (Direct Preference Optimization): tecnica più recente, più semplice, simile a RLHF ma più diretta.
  5. Safety training: si addestra il modello a rifiutare richieste pericolose.
  6. Tool use training: si insegna a chiamare API, fare function calling, usare browser.

Differenza pratica:

  • Senza post-training: il modello completa testo, può rispondere ma in modo grezzo, può essere sgradevole.
  • Con post-training: il modello è un assistente educato, utile, che rifiuta cose dannose, segue istruzioni.

Per i modelli aperti, il post-training è la differenza tra una "base" (Llama-Base) e una "instruct" (Llama-Instruct). Per uso pratico vuoi sempre la versione instruct.