La classificazione è uno dei due compiti fondamentali del supervised learning (l'altro è la regressione). Dato un input, il modello assegna una categoria.
Tipi di classificazione:
- Binary: due classi. "Spam o no", "fraudolenta o no", "malato o sano". Output tipico: una probabilità tra 0 e 1.
- Multi-class: più classi mutuamente esclusive. "Cane, gatto, uccello" (un'immagine è solo una delle tre). Output: distribuzione di probabilità via softmax.
- Multi-label: più classi non esclusive. Un articolo può essere "tech" E "AI" E "business" insieme. Output: una sigmoid per etichetta.
Esempi reali:
- Filtri antispam (Gmail).
- Riconoscimento volti (Apple Photos).
- Diagnosi mediche (radiografie con tumori).
- Approvazione prestiti (concedere sì/no).
- Moderazione contenuti (offensivo/sicuro).
Metriche tipiche: accuracy, precision e recall, F1, AUC-ROC. Accuracy da sola è ingannevole quando le classi sono sbilanciate (99% non-spam, 1% spam: un modello che dice sempre "non-spam" ha 99% accuracy ma è inutile).
Modelli che si usano: regressione logistica (semplice e robusta), random forest, gradient boosting (XGBoost, LightGBM), reti neurali, Transformer per testo, CNN per immagini.
Dove l'IA generativa entra: i LLM possono fare classificazione zero-shot ("classifica questa email come spam o non spam") senza training specifico. Spesso funziona benissimo, sostituisce modelli classici per problemi non critici.