Il model extraction attack (o model stealing) è un tipo di attacco in cui un avversario, avendo accesso solo agli output di un modello IA tramite API o interfaccia pubblica, ricostruisce una copia funzionalmente equivalente del modello. Furto di proprietà intellettuale.
Come funziona:
- Attaccante manda migliaia o milioni di query al modello target (es. tramite API).
- Raccoglie input + output.
- Usa questi dati per addestrare un modello "studente" che imita il comportamento.
- Risultato: modello stolen che ha capacità simili senza che l'attaccante abbia speso milioni in training.
Tecniche specifiche:
- Knowledge distillation: tecnica legittima usata maliciously.
- Active learning: scegliere query informative per estrarre il massimo.
- Boundary attacks: query vicine ai decision boundary per mappare il comportamento.
- Architettura recovery: stimare anche tipo e size del modello target.
Casi reali:
- Stanford Alpaca (2023): addestrato a basso costo distillando GPT-3.5 (in violazione dei terms of service di OpenAI). Esempio "benigno", per ricerca.
- Vicuna, Wizard, vari open model (2023): molti sono stati distillati da GPT-4.
- DeepSeek-V3 / R1: OpenAI ha accusato (2025) DeepSeek di aver usato output GPT per training, possibile model extraction systematic.
- Image generation: estrazione di stile da Midjourney via centinaia di generazioni.
Costo attacco vs costo vittima:
- Addestrare GPT-4 da zero: stime $100M+.
- "Distillarlo" via API: poche centinaia di migliaia di dollari.
- Asimmetria enorme che rende l'attacco economicamente attraente.
Difese:
- Rate limiting: limitare query per utente/IP.
- Watermark output: marcare le risposte per identificare modelli derivati.
- Behavioral monitoring: pattern di query sospetti.
- Output perturbation: aggiungere rumore alle risposte (con trade-off su qualità).
- Terms of service + legal action: clausole che vietano training di altri modelli sul target.
- Differential privacy al training: rende difficile estrarre dati specifici.
Per chi deploya un modello proprietario via API: model extraction è rischio reale. Le mitigazioni tecniche sono parziali. Spesso la combinazione tecnica + legale è la difesa più efficace.
Per chi sviluppa modelli open source: spesso la "model extraction" è diventata norma del settore (community che distilla modelli closed). Discussione etica e legale aperta.