Differential Privacy

[differensial praivasi]

Tecnica matematica che aggiunge rumore controllato ai dati per impedire di risalire ai singoli individui, mantenendo utili le statistiche aggregate.

La differential privacy è una tecnica matematica nata negli anni 2000 (Cynthia Dwork, Microsoft Research) che permette di analizzare grandi quantità di dati senza poter risalire al singolo individuo. Il trucco: aggiungere rumore casuale calibrato.

Idea base: se hai un database con 10 milioni di persone e calcoli "quanti hanno il diabete", il risultato è utile e nessuno è identificabile. Ma se uno chiede "quanti hanno il diabete tra gli uomini di 47 anni residenti in via Tuscolana 123 a Roma", è praticamente identificare una persona. La differential privacy aggiunge rumore in modo che la risposta sia comunque statisticamente accurata, ma non permetta di identificare nessuno.

Parametro chiave: epsilon (ε). Più basso, più privacy, ma anche più rumore (meno utilità). Trovare il giusto equilibrio è la sfida.

Chi la usa davvero:

  • Apple: per raccogliere statistiche di utilizzo da iPhone senza tracciare singoli utenti.
  • Google: nelle sue librerie open source (DP library) e per Chrome.
  • US Census Bureau: nel censimento 2020 USA.
  • Microsoft: in molti prodotti.

Per l'IA, la differential privacy si applica all'addestramento (DP-SGD: Differentially Private Stochastic Gradient Descent): aggiungi rumore ai gradienti durante il training, così il modello non "memorizza" troppo bene i singoli esempi.

Limite: non è magia. Trade-off serio tra privacy e accuratezza. Per modelli grandi è ancora computazionalmente costoso. Ma è uno degli strumenti seri per fare IA che rispetti il GDPR davvero, non solo sulla carta.