Giovedì pomeriggio, ufficio. Hai un foglio Excel con cinquecento righe: clienti, fornitori, dipendenti. Vorresti chiedere all'IA di riassumere, classificare, trovare anomalie. Ma dentro ci sono nomi, codici fiscali, partite IVA, indirizzi. Non puoi caricare quella roba tale e quale, neanche su un'IA installata in casa tua: la regola della privacy europea dice che mandi solo quello che serve. Tradotto: tutto quello che si può togliere prima, va tolto.
Ti racconto il workflow vero. Si chiama pseudonimizzazione, esistono strumenti gratuiti, e in mezza giornata di lavoro lo monti.
Il pasticcio in cui finisci se "rimpiazzi i nomi con XXX"
L'errore classico: cancelli i nomi e pensi di essere a posto. Sbagliato. Restano date, importi, città piccole, partite IVA, codici cliente. Bastano due o tre di questi messi insieme per ricostruire l'identità di una persona. "Il cliente di Castellabate, fattura del 14 marzo, importo 2.847,50 euro" è meglio di un nome. C'è una sola persona che corrisponde.
L'altro pasticcio: usare un servizio cloud per anonimizzare. È servizio cloud quanto l'IA che vuoi proteggere. Stesso problema, spostato di un metro.
Cosa NON puoi fare
Non puoi mandare dati personali in chiaro a un'IA cloud, neanche europea. Devi sostituire prima.
Non puoi salvare la mappa "codice anonimo → nome vero" in chiaro sul disco. Va in memoria, o in un file cifrato che si apre solo quando serve.
Non puoi confondere anonimizzazione (irreversibile) con pseudonimizzazione (reversibile). Per i prompt all'IA quasi sempre fai pseudonimizzazione: ti serve poter riportare i nomi veri quando arriva la risposta.
Non puoi pensare che "tanto è solo un test, dopo tolgo i dati". L'IA li ha già visti. Non li dimentica.
Cosa devi fare: la pipeline a tre stadi
Stadio uno — trovare. Identifichi le entità sensibili nel testo: nomi, codici fiscali, partite IVA, IBAN, indirizzi, email, numeri di telefono. Lo fa un programma per te, non a mano.
Stadio due — sostituire. Rimpiazzi con codici anonimi: <PERSONA_1>, <CF_1>, <IBAN_1>. Salvi la mappa "codice → valore vero" in memoria sul tuo PC. Quella mappa non esce mai da lì.
Stadio tre — riportare i nomi. Ricevi la risposta dall'IA, sostituisci i codici con i valori veri usando la mappa salvata. L'IA non ha mai visto i nomi reali.
Lo strumento giusto: Microsoft Presidio
Si chiama Presidio, è di Microsoft, è gratis, è open source. Lo installi con due comandi su qualunque PC. Funziona così:
Riconosce di default persone, email, telefoni, indirizzi IP, IBAN, carte di credito, luoghi. Per i dati italiani aggiungi due regole semplici: una per il codice fiscale (sequenza di lettere e numeri), una per la partita IVA (undici cifre con controllo). Le scrivi in venti minuti.
Il motore italiano si chiama spaCy, anche quello gratis. Lo scarichi col comando python -m spacy download it_core_news_lg e parte. Riconosce nomi italiani, città, aziende.
Il workflow in dieci righe di codice: leggi il testo, chiami il motore di analisi, sostituisci con la mappa. Mandi all'IA il testo coi codici. Ricevi la risposta, ripristini i nomi veri leggendo la mappa.
Quanto costa davvero
Presidio: gratis. spaCy: gratis. Server piccolo dove gira la pipeline: 5-20 euro al mese, basta una macchina da niente. Tempo di sviluppo per uno script funzionante: 4-8 ore di un programmatore decente.
Costo enorme se NON lo fai: sanzione privacy fino a venti milioni di euro o il 4% del fatturato per "minimizzazione dei dati" violata. OpenAI ha pagato 15 milioni al Garante italiano per casi simili. Non sono numeri da prendere a ridere.
I paletti che non si toccano
La mappa con i nomi veri sta sul tuo server, mai in cloud. Cifrata a riposo, in memoria solo durante l'uso, cancellata quando finisce il lavoro. Nessuna copia in chiaro su drive condivisi, dropbox, allegati mail.
Audit periodico: chi ha lanciato la pipeline, su quali dati, quando. Test di re-identificazione su un campione, fatti da una persona diversa da chi ha sviluppato. Se ricostruisce l'identità in due minuti, hai sbagliato.
Aggiornamento delle regole: ogni anno emergono nuovi formati di documento, nuove entità da riconoscere. La pipeline va manutenuta, non installata e dimenticata.
Una nota personale
Pseudonimizzare prima del prompt è una di quelle cose che dimezzano il rischio con poco sforzo. Mezza giornata di lavoro, qualche script, e dormi più tranquillo.
Sul gruppo Telegram di Super Squalo (t.me/Squalogruppo) c'è chi ha già montato pipeline di questo tipo per studi, banche, aziende. Si scambiano regole pronte all'uso e si risponde gratis. Tradotto: prima di pagare seimila euro al consulente di turno, fai un giro lì.