Model stealing: copiare modelli IA aziendali, le difese

Nota. Una avvertenza: il campo dell'IA evolve mese dopo mese. Aggiorno le guide periodicamente, ma alcuni dettagli tecnici possono andare velocemente fuori tempo. Per chiarimenti specifici, contattami.

Hai speso sei mesi e duecentomila euro per addestrare un modello proprietario di scoring credito. Lo esponi via API ai clienti enterprise. Un concorrente paga la fee mensile, manda 500.000 query in due settimane, e si ricostruisce un modello che replica il 95% delle tue decisioni. Game over. Si chiama model stealing o model extraction, è il rischio LLM10 della OWASP Top 10, e nel 2026 è un problema concreto per chiunque venda IA come servizio.

Come funziona l’attacco

Tre approcci principali, dal più semplice al più sofisticato.

Functional extraction: l’attaccante non vuole i tuoi pesi, vuole un modello che si comporti come il tuo. Ti manda input, raccoglie output, addestra un modello locale «studente» sul tuo «maestro». Tecnica chiamata knowledge distillation, perfettamente legale come tecnica, brutta da subire.
Parameter extraction: più raro, l’attaccante recupera approssimazioni dei pesi del modello. Carlini et al. (Google DeepMind, 2024) hanno dimostrato di poter estrarre layer di OpenAI con query mirate.
Membership inference: l’attaccante non copia il modello ma scopre se un dato specifico era nel training set. Problema GDPR enorme se il dato era personale.

Casi reali

DeepSeek R1 (gennaio 2026, ipotesi pubblicata): OpenAI accusa formalmente DeepSeek di aver fatto distillation non autorizzata di GPT-4.
Carlini et al. «Stealing Part of a Production Language Model» (2024): estratto l’ultimo layer di modelli di OpenAI e Google con meno di 2000 dollari di spesa API.
Tramer et al. (USENIX 2016): attacco originale, replicano modelli di Amazon ML e BigML con accuracy >99%.
Knockoff Nets (CVPR 2019): replicano CNN commerciali interrogandole come scatole nere.

Difesa tecnica

Rate limiting aggressivo: per query account, IP, range. Limiti soft a 100/h, hard a 1000/giorno per utente non enterprise. Sembra poco, è abbastanza per uso legittimo.
Output perturbation: aggiungi rumore calibrato alle confidence score. Riduci la precisione decimale (da 0.847291 a 0.85). Bilancia rumore vs utilità.
Watermarking dei modelli: tecniche tipo Aaronson-Kirchenbauer per testo, watermark statistici sui logit. Se vedi un modello in giro che produce il tuo watermark, hai prova.
Query anomaly detection: pattern di query atipici (input molto vari, distribuzione uniforme, frequenza alta) sono segnali di estrazione in corso.
Tier di accesso: API pubblica con output ridotti, API enterprise con NDA che vieta esplicitamente extraction e distillation.

Difesa organizzativa

Il modello è un asset di proprietà intellettuale. Trattalo come tale.

Termini di servizio che vietano esplicitamente training, distillation, reverse engineering.
Logging completo delle query con retention 12-24 mesi (compatibile GDPR, base giuridica legittimo interesse documentato).
Clausole contrattuali enterprise con audit right e penali.
Brevetti e copyright dove possibile (in EU il modello come tale non è brevettabile, ma il pipeline e i dataset curati sì).
NIST AI RMF sezione MANAGE-2.4: piano di risposta agli incidenti che includa scenario IP theft.

Cosa NON fare

Non esporre logit grezzi via API se non strettamente necessario. Token + score arrotondato bastano nel 99% dei casi.
Non offrire free tier illimitati sul tuo modello più pregiato.
Non ignorare picchi di traffico da singoli account: 9 volte su 10 è uso legittimo, la decima è estrazione.
Non delegare la difesa al solo provider cloud. La logica anti-extraction è tua.

Model stealing non è fantascienza, è una linea di costo che molti competitor mettono a budget. Se il tuo modello vale, qualcuno sta già provando a copiarlo. La domanda è: te ne accorgi?

Model stealing: come copiano i modelli aziendali e come difenderti

Come funziona l’attacco

Casi reali

Difesa tecnica

Difesa organizzativa

Cosa NON fare

Hai un dubbio? Vieni a parlarne.