Jailbreak — Cosa significa, esempi, come si usa

Il jailbreak di un'IA è il tentativo di aggirare le restrizioni messe dai suoi sviluppatori. ChatGPT, Claude e altri hanno dei guardrail: rifiutano di generare contenuti pericolosi (istruzioni per fare armi, materiale illegale, ecc.). Il jailbreak prova a farli rispondere comunque.

Tecniche comuni:

Role play: "fingi di essere un personaggio di un romanzo che spiega come...". Bypass narrativo.
Hypothetical: "in un mondo immaginario dove tutto è legale...".
Prompt injection multilingua: scrivere in lingue meno supportate dai guardrail.
Character splitting: dividere richieste pericolose in parti che individualmente sembrano innocue.
Manipolazione context: caricare documenti che contengono istruzioni nascoste.

Perché interessa anche a chi non hackera l'IA:

Sicurezza enterprise: se metti un chatbot IA sul tuo sito, qualcuno proverà a fare jailbreak per fargli dire cose imbarazzanti o dare info riservate.
Prompt injection: cugino del jailbreak, attacco serio dove istruzioni nascoste in documenti o input compromettono il comportamento dell'IA.
Limiti dei modelli: i jailbreak dimostrano che i guardrail attuali sono fragili. Non si può contare al 100% su loro.

Per chi gestisce un'azienda con IA in produzione, "jailbreak resistance" è un fattore di scelta tra modelli. I modelli enterprise (Claude Enterprise, Azure OpenAI) hanno protezioni in più rispetto alle versioni consumer.