Model Extraction Attack — Cosa significa, esempi, come si usa

Il model extraction attack (o model stealing) è un tipo di attacco in cui un avversario, avendo accesso solo agli output di un modello IA tramite API o interfaccia pubblica, ricostruisce una copia funzionalmente equivalente del modello. Furto di proprietà intellettuale.

Come funziona:

Attaccante manda migliaia o milioni di query al modello target (es. tramite API).
Raccoglie input + output.
Usa questi dati per addestrare un modello "studente" che imita il comportamento.
Risultato: modello stolen che ha capacità simili senza che l'attaccante abbia speso milioni in training.

Tecniche specifiche:

Knowledge distillation: tecnica legittima usata maliciously.
Active learning: scegliere query informative per estrarre il massimo.
Boundary attacks: query vicine ai decision boundary per mappare il comportamento.
Architettura recovery: stimare anche tipo e size del modello target.

Casi reali:

Stanford Alpaca (2023): addestrato a basso costo distillando GPT-3.5 (in violazione dei terms of service di OpenAI). Esempio "benigno", per ricerca.
Vicuna, Wizard, vari open model (2023): molti sono stati distillati da GPT-4.
DeepSeek-V3 / R1: OpenAI ha accusato (2025) DeepSeek di aver usato output GPT per training, possibile model extraction systematic.
Image generation: estrazione di stile da Midjourney via centinaia di generazioni.

Costo attacco vs costo vittima:

Addestrare GPT-4 da zero: stime $100M+.
"Distillarlo" via API: poche centinaia di migliaia di dollari.
Asimmetria enorme che rende l'attacco economicamente attraente.

Difese:

Rate limiting: limitare query per utente/IP.
Watermark output: marcare le risposte per identificare modelli derivati.
Behavioral monitoring: pattern di query sospetti.
Output perturbation: aggiungere rumore alle risposte (con trade-off su qualità).
Terms of service + legal action: clausole che vietano training di altri modelli sul target.
Differential privacy al training: rende difficile estrarre dati specifici.

Per chi deploya un modello proprietario via API: model extraction è rischio reale. Le mitigazioni tecniche sono parziali. Spesso la combinazione tecnica + legale è la difesa più efficace.

Per chi sviluppa modelli open source: spesso la "model extraction" è diventata norma del settore (community che distilla modelli closed). Discussione etica e legale aperta.