Hyperparameter — Cosa significa, esempi, come si usa

Un iperparametro è una scelta di configurazione del training, non qualcosa che il modello impara. La differenza è cruciale.

Parametri: i numeri interni del modello (pesi delle connessioni, bias). Imparati durante il training. Milioni o miliardi.

Iperparametri: scelti da te prima del training. Pochi (decine al massimo). Esempi:

Learning rate
Batch size
Numero di epoch
Numero di layer / dimensione hidden
Coefficienti di regolarizzazione (weight decay, dropout rate)
Tipo di ottimizzatore (Adam, SGD, AdamW)
Schedule del learning rate

Trovare gli iperparametri giusti è metà del mestiere. Tecniche:

Grid search: provi tutte le combinazioni di una griglia. Esaustivo, lento, infattibile per spazi grandi.
Random search: campioni a caso. Sorprendentemente più efficace di grid search secondo Bergstra & Bengio (2012).
Bayesian optimization: usa un modello surrogate per scegliere prossimi punti da provare. Optuna, Hyperopt, Ray Tune.
Population-based training: fai partire tante run, sostituisci le scarse con varianti delle buone.

Per gli LLM grossi non si fa hyperparameter search vero (un singolo training costa milioni). Si fanno scaling law studies su modelli piccoli e si estrapola. Chinchilla (DeepMind, 2022) è il paper di riferimento: a parità di compute, modelli più piccoli con più dati battono modelli più grandi con meno dati. Cambia tutta la strategia.

Regola pratica: parti da iperparametri standard di un paper o repo simile. Cambia uno alla volta. Tieni log. Non andare a casaccio.