Guardrail — Cosa significa, esempi, come si usa

I guardrail sono i filtri e le restrizioni che chi sviluppa un'IA mette per impedirle di generare contenuti pericolosi, illegali, dannosi. ChatGPT, Claude, Gemini hanno tutti guardrail.

Esempi di cosa i guardrail tipicamente impediscono:

Istruzioni dettagliate per creare armi, esplosivi, droghe sintetiche.
Materiale pedopornografico o di abuso minorile.
Discorsi d'odio diretti contro categorie protette.
Informazioni mediche o legali presentate come consulenza professionale (modelli ti dicono "consulta un medico/avvocato").
Generazione di contenuti che imitano persone reali in modi diffamatori.
Aiutare in attività illegali (frode, hacking, evasione fiscale specifica).

Tipi di guardrail:

Training-time: il modello impara durante l'addestramento a rifiutare certe richieste.
System prompt: istruzioni nascoste all'inizio della conversazione che dicono al modello come comportarsi.
Filtri input/output: classificatori separati che bloccano input o output prima che arrivino all'utente.
Constitutional AI (Anthropic): il modello si auto-corregge usando una "costituzione" scritta.

Problemi dei guardrail:

Falsi positivi: rifiutano richieste legittime ("scrivi un romanzo dove il protagonista è un avvelenatore" → "non posso").
Aggirabili: tecniche di jailbreak e prompt injection.
Bias culturali: i guardrail riflettono valori dei creatori. Quello che è "controverso" cambia da paese a paese.
Sycophancy: alcuni guardrail rendono il modello eccessivamente cauto e poco utile.

Per chi sviluppa IA in produzione: i guardrail "pre-confezionati" del modello base spesso non bastano. Serve aggiungere guardrail custom (filtri, regole di business, monitoring) per il tuo caso d'uso.