Guardrail

[gàrd-reil]

Restrizioni messe da chi sviluppa l'IA per impedirle di generare contenuti dannosi. Imperfetti, aggirabili (vedi jailbreak), ma utili.

I guardrail sono i filtri e le restrizioni che chi sviluppa un'IA mette per impedirle di generare contenuti pericolosi, illegali, dannosi. ChatGPT, Claude, Gemini hanno tutti guardrail.

Esempi di cosa i guardrail tipicamente impediscono:

  • Istruzioni dettagliate per creare armi, esplosivi, droghe sintetiche.
  • Materiale pedopornografico o di abuso minorile.
  • Discorsi d'odio diretti contro categorie protette.
  • Informazioni mediche o legali presentate come consulenza professionale (modelli ti dicono "consulta un medico/avvocato").
  • Generazione di contenuti che imitano persone reali in modi diffamatori.
  • Aiutare in attività illegali (frode, hacking, evasione fiscale specifica).

Tipi di guardrail:

  • Training-time: il modello impara durante l'addestramento a rifiutare certe richieste.
  • System prompt: istruzioni nascoste all'inizio della conversazione che dicono al modello come comportarsi.
  • Filtri input/output: classificatori separati che bloccano input o output prima che arrivino all'utente.
  • Constitutional AI (Anthropic): il modello si auto-corregge usando una "costituzione" scritta.

Problemi dei guardrail:

  • Falsi positivi: rifiutano richieste legittime ("scrivi un romanzo dove il protagonista è un avvelenatore" → "non posso").
  • Aggirabili: tecniche di jailbreak e prompt injection.
  • Bias culturali: i guardrail riflettono valori dei creatori. Quello che è "controverso" cambia da paese a paese.
  • Sycophancy: alcuni guardrail rendono il modello eccessivamente cauto e poco utile.

Per chi sviluppa IA in produzione: i guardrail "pre-confezionati" del modello base spesso non bastano. Serve aggiungere guardrail custom (filtri, regole di business, monitoring) per il tuo caso d'uso.