Classification

[classificheiscion]

Compito di assegnare un input a una categoria. Spam o non spam, gatto o cane, positivo o negativo: tutta classificazione.

La classificazione è uno dei due compiti fondamentali del supervised learning (l'altro è la regressione). Dato un input, il modello assegna una categoria.

Tipi di classificazione:

  • Binary: due classi. "Spam o no", "fraudolenta o no", "malato o sano". Output tipico: una probabilità tra 0 e 1.
  • Multi-class: più classi mutuamente esclusive. "Cane, gatto, uccello" (un'immagine è solo una delle tre). Output: distribuzione di probabilità via softmax.
  • Multi-label: più classi non esclusive. Un articolo può essere "tech" E "AI" E "business" insieme. Output: una sigmoid per etichetta.

Esempi reali:

  • Filtri antispam (Gmail).
  • Riconoscimento volti (Apple Photos).
  • Diagnosi mediche (radiografie con tumori).
  • Approvazione prestiti (concedere sì/no).
  • Moderazione contenuti (offensivo/sicuro).

Metriche tipiche: accuracy, precision e recall, F1, AUC-ROC. Accuracy da sola è ingannevole quando le classi sono sbilanciate (99% non-spam, 1% spam: un modello che dice sempre "non-spam" ha 99% accuracy ma è inutile).

Modelli che si usano: regressione logistica (semplice e robusta), random forest, gradient boosting (XGBoost, LightGBM), reti neurali, Transformer per testo, CNN per immagini.

Dove l'IA generativa entra: i LLM possono fare classificazione zero-shot ("classifica questa email come spam o non spam") senza training specifico. Spesso funziona benissimo, sostituisce modelli classici per problemi non critici.