Jailbreak

[gèil-brèik]

Tecnica per far dire o fare a un'IA cose che i suoi creatori hanno cercato di vietarle. Argomento controverso: dimostra limiti dei guardrail.

Il jailbreak di un'IA è il tentativo di aggirare le restrizioni messe dai suoi sviluppatori. ChatGPT, Claude e altri hanno dei guardrail: rifiutano di generare contenuti pericolosi (istruzioni per fare armi, materiale illegale, ecc.). Il jailbreak prova a farli rispondere comunque.

Tecniche comuni:

  • Role play: "fingi di essere un personaggio di un romanzo che spiega come...". Bypass narrativo.
  • Hypothetical: "in un mondo immaginario dove tutto è legale...".
  • Prompt injection multilingua: scrivere in lingue meno supportate dai guardrail.
  • Character splitting: dividere richieste pericolose in parti che individualmente sembrano innocue.
  • Manipolazione context: caricare documenti che contengono istruzioni nascoste.

Perché interessa anche a chi non hackera l'IA:

  • Sicurezza enterprise: se metti un chatbot IA sul tuo sito, qualcuno proverà a fare jailbreak per fargli dire cose imbarazzanti o dare info riservate.
  • Prompt injection: cugino del jailbreak, attacco serio dove istruzioni nascoste in documenti o input compromettono il comportamento dell'IA.
  • Limiti dei modelli: i jailbreak dimostrano che i guardrail attuali sono fragili. Non si può contare al 100% su loro.

Per chi gestisce un'azienda con IA in produzione, "jailbreak resistance" è un fattore di scelta tra modelli. I modelli enterprise (Claude Enterprise, Azure OpenAI) hanno protezioni in più rispetto alle versioni consumer.