Il jailbreak di un'IA è il tentativo di aggirare le restrizioni messe dai suoi sviluppatori. ChatGPT, Claude e altri hanno dei guardrail: rifiutano di generare contenuti pericolosi (istruzioni per fare armi, materiale illegale, ecc.). Il jailbreak prova a farli rispondere comunque.
Tecniche comuni:
- Role play: "fingi di essere un personaggio di un romanzo che spiega come...". Bypass narrativo.
- Hypothetical: "in un mondo immaginario dove tutto è legale...".
- Prompt injection multilingua: scrivere in lingue meno supportate dai guardrail.
- Character splitting: dividere richieste pericolose in parti che individualmente sembrano innocue.
- Manipolazione context: caricare documenti che contengono istruzioni nascoste.
Perché interessa anche a chi non hackera l'IA:
- Sicurezza enterprise: se metti un chatbot IA sul tuo sito, qualcuno proverà a fare jailbreak per fargli dire cose imbarazzanti o dare info riservate.
- Prompt injection: cugino del jailbreak, attacco serio dove istruzioni nascoste in documenti o input compromettono il comportamento dell'IA.
- Limiti dei modelli: i jailbreak dimostrano che i guardrail attuali sono fragili. Non si può contare al 100% su loro.
Per chi gestisce un'azienda con IA in produzione, "jailbreak resistance" è un fattore di scelta tra modelli. I modelli enterprise (Claude Enterprise, Azure OpenAI) hanno protezioni in più rispetto alle versioni consumer.