I synthetic data (dati sintetici) sono dati generati artificialmente da modelli statistici o IA, progettati per avere le stesse proprietà statistiche di un dataset reale ma senza contenere dati di persone reali identificabili.
Esempio: una banca vuole condividere dati su clienti con un fornitore IA per addestrare un modello anti-frode. Mandare dati reali viola GDPR. Soluzione: generare dati sintetici che hanno la stessa distribuzione statistica (età, redditi, transazioni) ma sono persone "inventate". Il modello impara comunque, la privacy è preservata.
Tecniche di generazione:
- Modelli statistici classici: campionamento da distribuzioni note.
- GAN (Generative Adversarial Networks): per dati tabellari, immagini, time series.
- Modelli diffusivi: per immagini sintetiche di alta qualità.
- LLM: per generare testi sintetici realistici.
Casi d'uso reali:
- Sanità: dataset sintetici di pazienti per ricerca senza problemi GDPR.
- Banche: training di modelli antifrode.
- Auto a guida autonoma: simulazione di scenari rari (collisioni, condizioni meteo estreme).
- Software testing: dati di test che non espongono produzione.
Aziende sul tema: Mostly AI (austriaca), Hazy, Gretel.ai, Tonic.ai.
Limiti seri:
- Non è privacy automatica: se il modello generatore è overfitted, può "memorizzare" pattern dei dati reali e farli leakare. Servono misure aggiuntive (differential privacy nel training del generatore).
- Bias replicati: se i dati reali hanno pregiudizi, anche i sintetici li avranno.
- Non sostituisce dati reali per casi rari: eventi estremi sotto-rappresentati restano problematici.
Per il GDPR: dati veramente sintetici (senza re-identificazione possibile) sono fuori dal perimetro dei "dati personali". Ma "veramente sintetici" è uno status che va dimostrato, non assunto.