Il red teaming nell'IA è la pratica di testare sistematicamente un modello cercando di farlo fallire: produrre contenuti pericolosi, dare informazioni false con sicurezza, essere ingannato da utenti malintenzionati. Termine preso dal contesto militare e cybersecurity.
Cosa testa un red team IA:
- Jailbreak: aggirare i guardrail con prompt creativi.
- Prompt injection: manipolare il modello con istruzioni nascoste in input esterni (documenti, email, pagine web).
- Bias e discriminazione: stress test su categorie protette.
- Hallucination su domini critici: medicina, legge, finanza.
- Generazione di contenuti dannosi: armi, droghe, abuso minori, disinformazione.
- Privacy leakage: tentativi di estrarre dati di training.
- Emergent capabilities: capacità impreviste e potenzialmente pericolose.
Chi lo fa seriamente:
- OpenAI, Anthropic, Google DeepMind: red team interni grandi, mesi di test prima del rilascio di nuovi modelli.
- External red teams: aziende terze (Apollo Research, METR, Trail of Bits).
- Bug bounty: programmi pubblici che pagano chi trova vulnerabilità.
- DEFCON AI Village: evento annuale con sfide pubbliche.
Approccio strutturato:
- Threat modeling: definire chi sono gli attaccanti e cosa vogliono.
- Test cases: lista di scenari concreti da testare.
- Automation: tool che generano migliaia di varianti di prompt.
- Human creativity: persone che pensano a attacchi che le macchine non immaginano.
- Documentation: report dettagliati di vulnerabilità trovate e mitigazioni.
L'AI Act europeo richiede esplicitamente "adversarial testing" per modelli di general-purpose AI con rischio sistemico. L'Executive Order USA (Biden, ottobre 2023, parzialmente revocato da Trump 2025) richiedeva report di red teaming al governo per modelli sopra certe soglie computazionali.
Per chi sviluppa applicazioni IA aziendali (anche solo un chatbot per il customer service): un red team minimo va fatto. Almeno test sistematici di prompt injection e jailbreak. Costoso saltarli.