L'unsupervised learning è il tipo di machine learning dove dai al modello dati senza etichette e lui deve trovare struttura, pattern, somiglianze da solo.
Esempi:
- Clustering: raggruppare clienti in segmenti senza dirgli quali sono i segmenti. Il modello scopre da solo che ci sono "giovani urbani", "famiglie province", ecc.
- Anomaly detection: rilevare transazioni fraudolente. Il modello impara come sono le transazioni "normali" e segnala quelle strane.
- Riduzione di dimensionalità: comprimere dati complessi mantenendone l'essenza (es. PCA, t-SNE).
- Topic modeling: scoprire automaticamente di cosa parlano migliaia di documenti.
Vantaggi:
- Niente etichette necessarie (i dati sono ovunque, le etichette no).
- Scopre cose che non sapevi cercare.
- Utile per esplorare dataset nuovi.
Svantaggi:
- Risultati spesso difficili da interpretare ("ok, hai trovato 5 cluster, ma cosa significano?").
- Difficile valutare se ha fatto un buon lavoro.
- Spesso bisogna combinarlo con conoscenza umana per dare senso ai risultati.