Synthetic Data

[sintètic dèita]

Dati artificiali generati da modelli IA che replicano le proprietà statistiche di dati reali, senza contenere informazioni personali identificabili.

I synthetic data (dati sintetici) sono dati generati artificialmente da modelli statistici o IA, progettati per avere le stesse proprietà statistiche di un dataset reale ma senza contenere dati di persone reali identificabili.

Esempio: una banca vuole condividere dati su clienti con un fornitore IA per addestrare un modello anti-frode. Mandare dati reali viola GDPR. Soluzione: generare dati sintetici che hanno la stessa distribuzione statistica (età, redditi, transazioni) ma sono persone "inventate". Il modello impara comunque, la privacy è preservata.

Tecniche di generazione:

  • Modelli statistici classici: campionamento da distribuzioni note.
  • GAN (Generative Adversarial Networks): per dati tabellari, immagini, time series.
  • Modelli diffusivi: per immagini sintetiche di alta qualità.
  • LLM: per generare testi sintetici realistici.

Casi d'uso reali:

  • Sanità: dataset sintetici di pazienti per ricerca senza problemi GDPR.
  • Banche: training di modelli antifrode.
  • Auto a guida autonoma: simulazione di scenari rari (collisioni, condizioni meteo estreme).
  • Software testing: dati di test che non espongono produzione.

Aziende sul tema: Mostly AI (austriaca), Hazy, Gretel.ai, Tonic.ai.

Limiti seri:

  • Non è privacy automatica: se il modello generatore è overfitted, può "memorizzare" pattern dei dati reali e farli leakare. Servono misure aggiuntive (differential privacy nel training del generatore).
  • Bias replicati: se i dati reali hanno pregiudizi, anche i sintetici li avranno.
  • Non sostituisce dati reali per casi rari: eventi estremi sotto-rappresentati restano problematici.

Per il GDPR: dati veramente sintetici (senza re-identificazione possibile) sono fuori dal perimetro dei "dati personali". Ma "veramente sintetici" è uno status che va dimostrato, non assunto.