La regressione è il fratello della classificazione: invece di prevedere una categoria, prevede un numero. Tutti i problemi dove l'output è continuo.
Esempi:
- Prezzo di una casa data superficie, zona, anni.
- Temperatura di domani.
- Tempo di consegna di un pacco.
- Probabilità di click su un annuncio.
- Età di una persona da una foto.
Modelli classici:
- Regressione lineare: il classico, output = somma pesata degli input. Spesso basta.
- Regressione polinomiale: aggiungi feature non lineari (quadrati, cubi).
- Random forest: insieme di alberi di decisione. Robusto.
- Gradient boosting (XGBoost, LightGBM, CatBoost): standard per dati tabulari, vince ancora competizioni.
- Reti neurali: per dati complessi (immagini, testi) con relazioni non lineari forti.
Loss function tipiche:
- MSE (Mean Squared Error): standard. Penalizza errori grandi più di errori piccoli.
- MAE (Mean Absolute Error): più robusta agli outlier.
- Huber loss: ibrido tra MSE e MAE.
Metriche di valutazione: RMSE, MAE, R² (quanto della varianza spieghi). MAPE (errore percentuale) quando l'unità relativa conta più di quella assoluta.
Problema tipico: outlier. Un valore estremo nel training set rovina una regressione lineare. Pulizia dati > modello sofisticato, sempre.
Nota terminologica: "regressione logistica" è classificazione, non regressione, nonostante il nome. Perché si chiama così? Storia, abitudine. Vai e capisci.