Lunedì mattina, ufficio del responsabile progetto. Il team di sviluppo parte oggi col nuovo prodotto basato su IA. Il responsabile della protezione dati ti dice "ricordati la privacy fin dal disegno". I programmatori alzano gli occhi al cielo: "sì sì, ce ne occupiamo dopo". Tu sai una cosa: se non lo fanno dall'inizio, riscriverlo dopo costa dieci volte di più. E quando arriva il Garante non scherza.
I sette principi della privacy by design, scritti da Ann Cavoukian e oggi dentro la legge europea, diventano scelte tecniche concrete. Te li smonto, fase per fase.
Il pasticcio in cui finisci se rinvii a dopo
I sette principi in due righe ciascuno. Proattivo, non reattivo: previeni, non rimedi. Privacy come impostazione predefinita. Privacy incorporata nel design, non aggiunta dopo. Funzionalità piena: privacy e utilità, non l'una contro l'altra. Sicurezza dall'inizio alla fine. Visibilità e trasparenza. Rispetto per l'utente, sempre al centro.
Sette principi astratti diventano sette costi reali se li applichi tardi. Il caso classico: il prodotto è pronto, lo stai per rilasciare, scopri che il modello memorizza dati personali e non si possono cancellare. Riaddestrarlo da capo costa decine di migliaia di euro. Avesi pensato all'architettura di pseudonimizzazione il primo giorno, sarebbe costato un giorno di lavoro.
Sanzioni: fino a 10 milioni o il 2% del fatturato. Il Garante italiano ha sanzionato più aziende su questo specifico punto, multe medie tra cento e cinquecentomila euro. Più, time-to-market raddoppiato per ogni progetto successivo. Non sono cifre da prendere a ridere.
Cosa NON puoi fare
Non puoi trattare la privacy come capitolo finale del progetto. È architettura, non rifinitura.
Non puoi raccogliere dati "perché magari un giorno servono". La legge chiede finalità specifica: "prevedere il rischio di abbandono dei clienti enterprise nei prossimi novanta giorni", non "migliorare il prodotto". Specifica, limitata.
Non puoi addestrare un modello su dati di clienti reali senza fare prima la valutazione d'impatto. Documento serio, non un foglio di carta. Se la fai dopo, è già tardi.
Non puoi ignorare il diritto all'oblio sul modello addestrato. Cancellare un dato dal database è facile. Cancellarlo da un modello che l'ha già imparato è difficile o impossibile. Devi pensarci prima.
Non puoi fidarti dei dati che il team raccoglie senza tracciare la provenienza: chi te li ha dati, quando, con quale base giuridica. Se non lo sai, non li puoi usare.
Cosa invece si può fare bene
Fase progettazione: minimizzazione fin dal brief. Quali dati servono davvero al modello? Se funziona con dati anonimi, niente nome. Se serve la geografia regionale, niente coordinate GPS. Si parte dal minimo e si aggiunge solo se serve.
Fase raccolta dati di addestramento: pseudonimizzazione preventiva. Sostituisci gli identificativi con codici. Tieni la mappa cifrata, separata, accessibile solo a chi serve. Dove possibile, dati sintetici: per testare e sviluppare, dati generati da un modello probabilistico. Privacy zero, utilità alta. Per la legge è come se non avessi raccolto niente.
Fase addestramento: tecniche serie. Privacy differenziale: aggiungi rumore controllato per impedire la ricostruzione di record individuali. Esistono librerie aperte e mature. Test su pregiudizi e correttezza, su dataset di valutazione separato, con metriche specifiche. Tutto documentato. Audit dell'addestramento riproducibile: versioni del dataset, parametri, durata, hardware.
Fase rilascio: privacy come impostazione predefinita. Configurazione iniziale alla privacy massima, l'utente abilita eventuali funzioni opzionali, mai il contrario. Filtro sull'output che blocca dati personali non autorizzati. Telemetria minima: cosa logghi davvero? Spesso si logga troppo "per debug". Riduci.
Fase manutenzione: monitor di deriva del modello. L'accuratezza degrada nel tempo, e con essa può salire il rischio privacy (più falsi positivi su determinate categorie). Allerte automatiche. Procedure tecniche per accesso, rettifica, cancellazione GDPR: scritte, testate, funzionanti.
I paletti che non si toccano
Documentazione che deve esistere: valutazione d'impatto privacy, modello delle minacce, schema dati classificato, registro trattamenti, report sui pregiudizi, audit dell'addestramento, manuale operativo. Sembra tanto. Ma se manca, alla prima ispezione paghi caro.
Risposta agli incidenti specifica per IA: cosa fai se scopri una fuga di dati attraverso un prompt? Se il modello inizia a generare dati personali reali? Procedura scritta, testata, non improvvisata.
Fase dismissione, ultima ma cruciale: cancellazione sicura dei dati di addestramento. Distruzione del modello stesso se contiene dati personali memorizzati (i modelli grandi possono "ricordare"). Aggiornamento del registro dei trattamenti. Comunicazione agli interessati se previsto.
Beneficio reale dell'applicazione: riduzione drastica del rischio incidenti, time-to-market più veloce per i progetti successivi (riusi i pattern), differenziatore commerciale verso clienti enterprise sensibili al tema. Privacy by design non è un esercizio accademico. È un metodo che fa risparmiare soldi, tempo, sanzioni e crisi reputazionali. Costa fatica all'inizio, toglie decine di problemi dopo.
Una nota personale
Io di mestiere monto sistemi IA privati per studi professionali e PMI italiane, applicando privacy by design dalla riga uno. Non vendo corsi, non vendo formule magiche. Sul gruppo Telegram di Super Squalo (t.me/Squalogruppo) si discute di valutazioni d'impatto, modelli di minaccia e progetti veri ogni giorno, e si risponde gratis.
Il progetto del lunedì, intanto, parti dal modello delle minacce. Una pagina, fatta bene. Il resto viene di conseguenza.