Hyperparameter

[haiperpàrameter]

Parametro che configuri prima del training, non quello che il modello impara. Learning rate, batch size, numero di layer: iperparametri.

Un iperparametro è una scelta di configurazione del training, non qualcosa che il modello impara. La differenza è cruciale.

Parametri: i numeri interni del modello (pesi delle connessioni, bias). Imparati durante il training. Milioni o miliardi.

Iperparametri: scelti da te prima del training. Pochi (decine al massimo). Esempi:

Trovare gli iperparametri giusti è metà del mestiere. Tecniche:

  • Grid search: provi tutte le combinazioni di una griglia. Esaustivo, lento, infattibile per spazi grandi.
  • Random search: campioni a caso. Sorprendentemente più efficace di grid search secondo Bergstra & Bengio (2012).
  • Bayesian optimization: usa un modello surrogate per scegliere prossimi punti da provare. Optuna, Hyperopt, Ray Tune.
  • Population-based training: fai partire tante run, sostituisci le scarse con varianti delle buone.

Per gli LLM grossi non si fa hyperparameter search vero (un singolo training costa milioni). Si fanno scaling law studies su modelli piccoli e si estrapola. Chinchilla (DeepMind, 2022) è il paper di riferimento: a parità di compute, modelli più piccoli con più dati battono modelli più grandi con meno dati. Cambia tutta la strategia.

Regola pratica: parti da iperparametri standard di un paper o repo simile. Cambia uno alla volta. Tieni log. Non andare a casaccio.