Regression

[regrèsscion]

Compito di prevedere un numero invece di una categoria. Prezzo di una casa, temperatura di domani, voti di un esame: tutto regressione.

La regressione è il fratello della classificazione: invece di prevedere una categoria, prevede un numero. Tutti i problemi dove l'output è continuo.

Esempi:

  • Prezzo di una casa data superficie, zona, anni.
  • Temperatura di domani.
  • Tempo di consegna di un pacco.
  • Probabilità di click su un annuncio.
  • Età di una persona da una foto.

Modelli classici:

  • Regressione lineare: il classico, output = somma pesata degli input. Spesso basta.
  • Regressione polinomiale: aggiungi feature non lineari (quadrati, cubi).
  • Random forest: insieme di alberi di decisione. Robusto.
  • Gradient boosting (XGBoost, LightGBM, CatBoost): standard per dati tabulari, vince ancora competizioni.
  • Reti neurali: per dati complessi (immagini, testi) con relazioni non lineari forti.

Loss function tipiche:

  • MSE (Mean Squared Error): standard. Penalizza errori grandi più di errori piccoli.
  • MAE (Mean Absolute Error): più robusta agli outlier.
  • Huber loss: ibrido tra MSE e MAE.

Metriche di valutazione: RMSE, MAE, R² (quanto della varianza spieghi). MAPE (errore percentuale) quando l'unità relativa conta più di quella assoluta.

Problema tipico: outlier. Un valore estremo nel training set rovina una regressione lineare. Pulizia dati > modello sofisticato, sempre.

Nota terminologica: "regressione logistica" è classificazione, non regressione, nonostante il nome. Perché si chiama così? Storia, abitudine. Vai e capisci.