Federated learning aziende: Flower, NVFlare e quando serve davvero

Nota. Cerco di tenere queste guide aggiornate, ma l'IA è un campo che si muove velocissimo e le informazioni cambiano in fretta. Se leggi questo articolo a distanza di mesi, qualche dettaglio potrebbe essere già diverso. In dubbio, scrivimi.

Martedì mattina, sede italiana di un gruppo internazionale. Sei IT manager, sedi in Italia, Francia, Spagna, Polonia. Dati sanitari o finanziari distribuiti, ognuno nel suo paese, ognuno con le sue regole. Il consulente entra in riunione e dice: "facciamo federated learning". Il direttore generale annuisce. Tu prendi appunti. Prima di buttarci dentro sei mesi e mezzo milione di euro, fermo immagine. Capiamo cosa stai per comprare.

Ti racconto cosa è davvero il federated learning, quando ha senso, quando ti basta una soluzione molto più semplice.

Federated learning, in due righe da bar

Tradotto in italiano funziona così. Invece di mandare i dati di Italia, Francia, Spagna a un server centrale dove un modello impara, il modello si sposta lui in ogni paese. Impara dai dati locali senza muoverli. Manda al centro solo i parametri aggiornati. Il centro mette insieme i parametri di tutti i paesi e crea il modello finale. I dati non escono mai dalla loro casa.

Suona perfetto per privacy distribuita: dati sanitari di Milano restano a Milano, dati di Madrid restano a Madrid, ognuno rispetta la sua regolamentazione locale. Ma è anche un'architettura complessa, e nel 90% dei casi che vedo sul tavolo dei direttori IT non serve davvero.

Il pasticcio in cui finisci se lo compri senza pensare

Quattro problemi grossi. Uno: complessità di setup. Servono nodi sicuri in ogni sede, sincronizzazione dei modelli, gestione delle versioni. Sei mesi minimo, team dedicato. Due: privacy non è gratuita. I parametri inviati al centro possono ricostruire dati sensibili con tecniche note. Servono protezioni aggiuntive (privacy differenziale, aggregazione sicura), e queste tagliano la qualità del modello.

Tre: dati di qualità eterogenea. Se Italia ha dati ben strutturati e Polonia ha dati a metà, il modello impara male. Il federato amplifica il problema, non lo risolve. Quattro: costi. Tre o quattro volte il classico modello centralizzato, fra setup, manutenzione e team.

Aggiungi che OpenAI 15 milioni a dicembre 2024 e Synlab 2,5 milioni nel 2024: il Garante guarda anche le architetture complesse, non solo i tool consumer. Una DPIA fatta male su un sistema federato è il modo più rapido per finire in cronaca.

Cosa NON puoi fare

Non puoi spacciare il federated learning come "GDPR-safe by design". Non lo è. Serve sempre informativa, base giuridica, valutazione di impatto, accordi con i fornitori.

Non puoi partire senza una proof of concept seria. Tre mesi di test su un sottoinsieme di dati, due paesi, una metrica chiara. Se non funziona lì, non funzionerà nemmeno su scala.

Non puoi affidare il coordinatore centrale a un servizio cloud americano. Anche se i dati restano nei paesi, i parametri passano dal centro. Server centrale in Europa, sempre.

Non puoi saltare la valutazione legale paese per paese. Italia, Spagna, Francia hanno regole locali sui dati sanitari. Una DPIA unica europea non basta, servono valutazioni nazionali specifiche.

Quando ha senso davvero

Tre scenari concreti. Uno: gruppo ospedaliero internazionale che vuole un modello diagnostico unico, con dati di pazienti che per legge nazionale non possono uscire dal paese. Allora sì, il federato è la risposta. Due: aziende concorrenti che vogliono collaborare su un modello comune (es. rilevamento frodi), senza condividere dati clienti. Anche qui ha senso.

Tre: applicazioni mobili che imparano dai dati dell'utente sul telefono, senza mandarli al server. Modello già adottato da Google sui telefoni Android per la tastiera. Specifico, mirato, funziona.

Quando ti basta una soluzione più semplice

Nove casi su dieci ti basta un classico data warehouse europeo con anonimizzazione fatta bene. I dati confluiscono nel data warehouse, vengono spogliati degli identificativi, e poi usati per addestrare il modello. Costo: un terzo del federato. Tempo: tre mesi. Qualità del modello: spesso migliore.

Per casi multi-paese, valuta la pseudonimizzazione + accordi di trattamento congiunto fra le sedi. Strumenti standard, già rodati, che il Garante conosce bene.

I paletti che non si toccano

DPIA prima del setup, paese per paese. Audit log sui parametri scambiati, non solo sui dati. Privacy differenziale o aggregazione sicura attivate, non opzionali.

Server centrale di coordinamento in Europa, mai negli USA. Accordi scritti coi fornitori dei nodi locali. Formazione tecnica vera al team che gestirà il sistema, non slide del consulente.

Una nota personale

Io di mestiere monto sistemi IA privati per aziende italiane. Niente corsi, niente formule magiche. Sul gruppo Telegram di Super Squalo (t.me/Squalogruppo) si parla di architetture, costi, alternative ogni settimana, e si risponde gratis.

La riunione del martedì, intanto, riprendila. Ma chiedi prima al consulente: "perché federato e non un data warehouse europeo?". La risposta ti dirà se vale la spesa.

Federated learning per aziende: cosa è, quando ha senso