Differential privacy spiegata: Apple, Google, Census USA

Nota. Una premessa: l'IA cambia ogni mese. Quello che leggi qui è giusto al momento in cui scrivo, ma fra sei mesi qualche pezzo potrebbe essere già superato. Ci provo a tenerlo aggiornato, ma se hai un dubbio mandami un messaggio.

Giovedì pomeriggio, riunione tecnica in azienda. Il consulente del fornitore tira fuori la slide e ti dice: "stiamo applicando differential privacy, quindi i dati sono protetti a livello matematico". Tutti annuiscono. Tu chiedi quale parametro stanno usando. Silenzio. Il punto è che differential privacy è matematica seria, ma è anche la buzzword più abusata degli ultimi due anni. Vediamo cosa fa davvero, quando serve, quando è teatro.

Il pasticcio in cui finisci se confondi DP con anonimizzazione

La differential privacy aggiunge rumore matematico calibrato ai dati o alle query. Così la presenza o l'assenza di un singolo individuo nel dataset non cambia il risultato in modo significativo. Il parametro chiave è epsilon: più basso, più privacy, ma anche meno utilità dei dati.

Numeri che servono per orientarsi. Epsilon 0,1: privacy fortissima, dati molto rumorosi. Epsilon 1: il bilanciamento tipico in produzione. Epsilon 10: privacy debole, quasi cosmetica. Apple usa epsilon tra 2 e 8 per la tastiera iOS (criticato dai puristi come troppo alto). Google usa epsilon tra 0,5 e 2 per la telemetria di Chrome. Il censimento USA del 2020 ha usato un epsilon totale di 19,61, anche questo dibattuto.

Il guaio è quando qualcuno ti dice "abbiamo applicato DP" senza specificare epsilon. Senza il numero, è una dichiarazione vuota. Epsilon 100 e dichiararsi "DP-protected" è teatro puro. Eppure capita.

Cosa NON puoi fare

Non puoi pensare che la differential privacy renda i dati "anonimi" in senso individuale. È una garanzia statistica, non un'anonimizzazione record per record. Il singolo è protetto perché il suo contributo si perde nel rumore, ma il dataset in sé contiene ancora dati personali.

Non puoi applicarla a dataset piccoli (sotto i diecimila record) e aspettarti risultati utili. Il rumore distrugge l'utilità. La DP è una tecnica per grandi numeri.

Non puoi mettere epsilon a 100 e dichiarare di essere a posto. È falsa sicurezza. La sostanza della protezione si gioca nel parametro, non nell'etichetta.

Non puoi confonderla con il federated learning. Sono cose ortogonali, spesso si combinano: il federated learning sposta il calcolo verso i dati, la DP aggiunge rumore al risultato. Servono insieme, non uno al posto dell'altro.

Cosa invece si può fare bene

Tre librerie serie per implementarla davvero. OpenDP sviluppata da MIT e Harvard: si installa con pip, ha un'interfaccia per query DP-safe su dataset pandas e numpy. Google Differential Privacy library: open source in C++, Go e Python, integrata con BigQuery. OpenMined PyDP: wrapper Python intorno alla libreria Google, comodo per prototipi rapidi.

Esempi pratici di chi la usa. Apple iOS keyboard dal 2016: quando digiti un'emoji nuova, il dispositivo aggiunge rumore prima di mandare la statistica ad Apple. Apple impara quale emoji sta diventando popolare senza sapere che TU l'hai usata. Google Chrome RAPPOR: per la telemetria della homepage e dei settings, il browser fa "flippare" il bit di risposta con una certa probabilità. Google ricostruisce statistiche aggregate, non singoli utenti. Censimento USA 2020: primo censimento con DP applicata sistematicamente. Polemica: alcune piccole comunità native vedono dati che sembrano "sbagliati" per via del rumore.

Quando ti serve davvero la DP. Pubblichi statistiche aggregate da dati personali (telemetria di prodotto, censimenti, sondaggi). Vuoi addestrare modelli IA su dati sensibili con garanzie matematiche di non-memorizzazione. Hai un caso d'uso del tipo "dati anonimizzati per ricerca" e ti serve robustezza tecnica difendibile davanti al Garante.

I paletti che non si toccano

Costo reale: la libreria è gratis. Il costo vero è che l'utilità dei dati ne soffre: devi accettare che le tue statistiche siano meno accurate. Tempo di sviluppo realistico: uno-tre mesi per uno sviluppatore senior che la conosce. Tempo di formazione del team: leggere i paper, capire come si compongono gli epsilon su query multiple, progettare un budget di privacy serio.

Quadro normativo. Le linee guida europee (EDPB) riconoscono la DP come tecnica per anonimizzazione robusta, a patto che epsilon sia abbastanza basso. La legge europea sull'IA la cita tra le tecniche raccomandate per training e inferenza su dati personali. Negli Stati Uniti il NIST ha un documento dedicato sugli standard DP per la pubblica amministrazione.

Tradotto: se la implementi seriamente, ti dà argomenti tecnici solidi. Se la sbandieri come etichetta, sei nudo.

Una nota personale

Differential privacy è uno strumento serio, non una bacchetta magica. Se il tuo problema è "voglio statistiche aggregate da telemetria di milioni di utenti senza esporre il singolo", è la tecnica giusta. Se il tuo problema è "voglio scrivere email senza che ChatGPT le legga", non ti serve DP, ti serve un ambiente IA dentro il tuo perimetro.

Sul gruppo Telegram di Super Squalo (t.me/Squalogruppo) si discute di queste cose ogni giorno, e si risponde gratis. Se hai un dubbio se il tuo caso d'uso davvero richiede DP o ti basta un'altra strada più semplice, è il posto dove chiederlo.

Differential privacy: cosa è davvero, esempi pratici Apple e Google

Il pasticcio in cui finisci se confondi DP con anonimizzazione

Cosa NON puoi fare

Cosa invece si può fare bene

I paletti che non si toccano

Una nota personale

Hai un dubbio? Vieni a parlarne.