Anonimizzare dati prima dell'IA: Presidio, spaC...

Giovedì pomeriggio, ufficio. Hai un foglio Excel con cinquecento righe: clienti, fornitori, dipendenti. Vorresti chiedere all'IA di riassumere, classificare, trovare anomalie. Ma dentro ci sono nomi, codici fiscali, partite IVA, indirizzi. Non puoi caricare quella roba tale e quale, neanche su un'IA installata in casa tua: la regola della privacy europea dice che mandi solo quello che serve. Tradotto: tutto quello che si può togliere prima, va tolto.

Ti racconto il workflow vero. Si chiama pseudonimizzazione, esistono strumenti gratuiti, e in mezza giornata di lavoro lo monti.

Il pasticcio in cui finisci se "rimpiazzi i nomi con XXX"

L'errore classico: cancelli i nomi e pensi di essere a posto. Sbagliato. Restano date, importi, città piccole, partite IVA, codici cliente. Bastano due o tre di questi messi insieme per ricostruire l'identità di una persona. "Il cliente di Castellabate, fattura del 14 marzo, importo 2.847,50 euro" è meglio di un nome. C'è una sola persona che corrisponde.

L'altro pasticcio: usare un servizio cloud per anonimizzare. È servizio cloud quanto l'IA che vuoi proteggere. Stesso problema, spostato di un metro.

Cosa NON puoi fare

Non puoi mandare dati personali in chiaro a un'IA cloud, neanche europea. Devi sostituire prima.

Non puoi salvare la mappa "codice anonimo → nome vero" in chiaro sul disco. Va in memoria, o in un file cifrato che si apre solo quando serve.

Non puoi confondere anonimizzazione (irreversibile) con pseudonimizzazione (reversibile). Per i prompt all'IA quasi sempre fai pseudonimizzazione: ti serve poter riportare i nomi veri quando arriva la risposta.

Non puoi pensare che "tanto è solo un test, dopo tolgo i dati". L'IA li ha già visti. Non li dimentica.

Cosa devi fare: la pipeline a tre stadi

Stadio uno — trovare. Identifichi le entità sensibili nel testo: nomi, codici fiscali, partite IVA, IBAN, indirizzi, email, numeri di telefono. Lo fa un programma per te, non a mano.

Stadio due — sostituire. Rimpiazzi con codici anonimi: <PERSONA_1>, <CF_1>, <IBAN_1>. Salvi la mappa "codice → valore vero" in memoria sul tuo PC. Quella mappa non esce mai da lì.

Stadio tre — riportare i nomi. Ricevi la risposta dall'IA, sostituisci i codici con i valori veri usando la mappa salvata. L'IA non ha mai visto i nomi reali.

Lo strumento giusto: Microsoft Presidio

Si chiama Presidio, è di Microsoft, è gratis, è open source. Lo installi con due comandi su qualunque PC. Funziona così:

Riconosce di default persone, email, telefoni, indirizzi IP, IBAN, carte di credito, luoghi. Per i dati italiani aggiungi due regole semplici: una per il codice fiscale (sequenza di lettere e numeri), una per la partita IVA (undici cifre con controllo). Le scrivi in venti minuti.

Il motore italiano si chiama spaCy, anche quello gratis. Lo scarichi col comando python -m spacy download it_core_news_lg e parte. Riconosce nomi italiani, città, aziende.

Il workflow in dieci righe di codice: leggi il testo, chiami il motore di analisi, sostituisci con la mappa. Mandi all'IA il testo coi codici. Ricevi la risposta, ripristini i nomi veri leggendo la mappa.

Quanto costa davvero

Presidio: gratis. spaCy: gratis. Server piccolo dove gira la pipeline: 5-20 euro al mese, basta una macchina da niente. Tempo di sviluppo per uno script funzionante: 4-8 ore di un programmatore decente.

Costo enorme se NON lo fai: sanzione privacy fino a venti milioni di euro o il 4% del fatturato per "minimizzazione dei dati" violata. OpenAI ha pagato 15 milioni al Garante italiano per casi simili. Non sono numeri da prendere a ridere.

I paletti che non si toccano

La mappa con i nomi veri sta sul tuo server, mai in cloud. Cifrata a riposo, in memoria solo durante l'uso, cancellata quando finisce il lavoro. Nessuna copia in chiaro su drive condivisi, dropbox, allegati mail.

Audit periodico: chi ha lanciato la pipeline, su quali dati, quando. Test di re-identificazione su un campione, fatti da una persona diversa da chi ha sviluppato. Se ricostruisce l'identità in due minuti, hai sbagliato.

Aggiornamento delle regole: ogni anno emergono nuovi formati di documento, nuove entità da riconoscere. La pipeline va manutenuta, non installata e dimenticata.

Una nota personale

Pseudonimizzare prima del prompt è una di quelle cose che dimezzano il rischio con poco sforzo. Mezza giornata di lavoro, qualche script, e dormi più tranquillo.

Sul gruppo Telegram di Super Squalo (t.me/Squalogruppo) c'è chi ha già montato pipeline di questo tipo per studi, banche, aziende. Si scambiano regole pronte all'uso e si risponde gratis. Tradotto: prima di pagare seimila euro al consulente di turno, fai un giro lì.

Domande frequenti

Cosa fanno gli strumenti IA con i miei dati?

Dipende dal modello. Le versioni consumer (ChatGPT Free, Claude Free, Gemini Free) usano i tuoi prompt per migliorare i modelli salvo opt-out esplicito. Le versioni Enterprise/Team/API non addestrano sui tuoi dati per impostazione predefinita. Leggi sempre la privacy policy aggiornata del fornitore.

Come faccio opt-out dal training degli IA?

Su ChatGPT: Impostazioni > Data Controls > Improve the model for everyone (OFF). Su Claude: Settings > Privacy > Help improve Anthropic (OFF). Su Gemini: Activity > IA Activity > Turn off. Su versioni API/Enterprise il non-training e' default.

L'AI Act europeo cosa impone alle aziende?

Classificazione dei sistemi IA per rischio, obbligo di trasparenza (etichettatura contenuti generati), divieto di pratiche manipolatorie, registro dei sistemi ad alto rischio, valutazione di impatto. Sanzioni fino al 7% del fatturato globale per le violazioni piu' gravi.

Anonimizzare dati prima di darli all'IA: tool e workflow vero