Regression — Cosa significa, esempi, come si usa

La regressione è il fratello della classificazione: invece di prevedere una categoria, prevede un numero. Tutti i problemi dove l'output è continuo.

Esempi:

Prezzo di una casa data superficie, zona, anni.
Temperatura di domani.
Tempo di consegna di un pacco.
Probabilità di click su un annuncio.
Età di una persona da una foto.

Modelli classici:

Regressione lineare: il classico, output = somma pesata degli input. Spesso basta.
Regressione polinomiale: aggiungi feature non lineari (quadrati, cubi).
Random forest: insieme di alberi di decisione. Robusto.
Gradient boosting (XGBoost, LightGBM, CatBoost): standard per dati tabulari, vince ancora competizioni.
Reti neurali: per dati complessi (immagini, testi) con relazioni non lineari forti.

Loss function tipiche:

MSE (Mean Squared Error): standard. Penalizza errori grandi più di errori piccoli.
MAE (Mean Absolute Error): più robusta agli outlier.
Huber loss: ibrido tra MSE e MAE.

Metriche di valutazione: RMSE, MAE, R² (quanto della varianza spieghi). MAPE (errore percentuale) quando l'unità relativa conta più di quella assoluta.

Problema tipico: outlier. Un valore estremo nel training set rovina una regressione lineare. Pulizia dati > modello sofisticato, sempre.

Nota terminologica: "regressione logistica" è classificazione, non regressione, nonostante il nome. Perché si chiama così? Storia, abitudine. Vai e capisci.