Model Extraction Attack

[model ekstràction atàck]

Attacco in cui un avversario, interrogando ripetutamente un modello tramite API, ne ricostruisce una copia funzionalmente equivalente. Furto di proprietà intellettuale.

Il model extraction attack (o model stealing) è un tipo di attacco in cui un avversario, avendo accesso solo agli output di un modello IA tramite API o interfaccia pubblica, ricostruisce una copia funzionalmente equivalente del modello. Furto di proprietà intellettuale.

Come funziona:

  • Attaccante manda migliaia o milioni di query al modello target (es. tramite API).
  • Raccoglie input + output.
  • Usa questi dati per addestrare un modello "studente" che imita il comportamento.
  • Risultato: modello stolen che ha capacità simili senza che l'attaccante abbia speso milioni in training.

Tecniche specifiche:

  • Knowledge distillation: tecnica legittima usata maliciously.
  • Active learning: scegliere query informative per estrarre il massimo.
  • Boundary attacks: query vicine ai decision boundary per mappare il comportamento.
  • Architettura recovery: stimare anche tipo e size del modello target.

Casi reali:

  • Stanford Alpaca (2023): addestrato a basso costo distillando GPT-3.5 (in violazione dei terms of service di OpenAI). Esempio "benigno", per ricerca.
  • Vicuna, Wizard, vari open model (2023): molti sono stati distillati da GPT-4.
  • DeepSeek-V3 / R1: OpenAI ha accusato (2025) DeepSeek di aver usato output GPT per training, possibile model extraction systematic.
  • Image generation: estrazione di stile da Midjourney via centinaia di generazioni.

Costo attacco vs costo vittima:

  • Addestrare GPT-4 da zero: stime $100M+.
  • "Distillarlo" via API: poche centinaia di migliaia di dollari.
  • Asimmetria enorme che rende l'attacco economicamente attraente.

Difese:

  • Rate limiting: limitare query per utente/IP.
  • Watermark output: marcare le risposte per identificare modelli derivati.
  • Behavioral monitoring: pattern di query sospetti.
  • Output perturbation: aggiungere rumore alle risposte (con trade-off su qualità).
  • Terms of service + legal action: clausole che vietano training di altri modelli sul target.
  • Differential privacy al training: rende difficile estrarre dati specifici.

Per chi deploya un modello proprietario via API: model extraction è rischio reale. Le mitigazioni tecniche sono parziali. Spesso la combinazione tecnica + legale è la difesa più efficace.

Per chi sviluppa modelli open source: spesso la "model extraction" è diventata norma del settore (community che distilla modelli closed). Discussione etica e legale aperta.