Synthetic Data: cos'è e significato nell'IA

I synthetic data (dati sintetici) sono dati generati artificialmente da modelli statistici o IA, progettati per avere le stesse proprietà statistiche di un dataset reale ma senza contenere dati di persone reali identificabili.

Esempio: una banca vuole condividere dati su clienti con un fornitore IA per addestrare un modello anti-frode. Mandare dati reali viola GDPR. Soluzione: generare dati sintetici che hanno la stessa distribuzione statistica (età, redditi, transazioni) ma sono persone "inventate". Il modello impara comunque, la privacy è preservata.

Tecniche di generazione:

Modelli statistici classici: campionamento da distribuzioni note.
GAN (Generative Adversarial Networks): per dati tabellari, immagini, time series.
Modelli diffusivi: per immagini sintetiche di alta qualità.
LLM: per generare testi sintetici realistici.

Casi d'uso reali:

Sanità: dataset sintetici di pazienti per ricerca senza problemi GDPR.
Banche: training di modelli antifrode.
Auto a guida autonoma: simulazione di scenari rari (collisioni, condizioni meteo estreme).
Software testing: dati di test che non espongono produzione.

Aziende sul tema: Mostly AI (austriaca), Hazy, Gretel.ai, Tonic.ai.

Limiti seri:

Non è privacy automatica: se il modello generatore è overfitted, può "memorizzare" pattern dei dati reali e farli leakare. Servono misure aggiuntive (differential privacy nel training del generatore).
Bias replicati: se i dati reali hanno pregiudizi, anche i sintetici li avranno.
Non sostituisce dati reali per casi rari: eventi estremi sotto-rappresentati restano problematici.

Per il GDPR: dati veramente sintetici (senza re-identificazione possibile) sono fuori dal perimetro dei "dati personali". Ma "veramente sintetici" è uno status che va dimostrato, non assunto.

Vedi anche