I guardrail sono i filtri e le restrizioni che chi sviluppa un'IA mette per impedirle di generare contenuti pericolosi, illegali, dannosi. ChatGPT, Claude, Gemini hanno tutti guardrail.
Esempi di cosa i guardrail tipicamente impediscono:
- Istruzioni dettagliate per creare armi, esplosivi, droghe sintetiche.
- Materiale pedopornografico o di abuso minorile.
- Discorsi d'odio diretti contro categorie protette.
- Informazioni mediche o legali presentate come consulenza professionale (modelli ti dicono "consulta un medico/avvocato").
- Generazione di contenuti che imitano persone reali in modi diffamatori.
- Aiutare in attività illegali (frode, hacking, evasione fiscale specifica).
Tipi di guardrail:
- Training-time: il modello impara durante l'addestramento a rifiutare certe richieste.
- System prompt: istruzioni nascoste all'inizio della conversazione che dicono al modello come comportarsi.
- Filtri input/output: classificatori separati che bloccano input o output prima che arrivino all'utente.
- Constitutional AI (Anthropic): il modello si auto-corregge usando una "costituzione" scritta.
Problemi dei guardrail:
- Falsi positivi: rifiutano richieste legittime ("scrivi un romanzo dove il protagonista è un avvelenatore" → "non posso").
- Aggirabili: tecniche di jailbreak e prompt injection.
- Bias culturali: i guardrail riflettono valori dei creatori. Quello che è "controverso" cambia da paese a paese.
- Sycophancy: alcuni guardrail rendono il modello eccessivamente cauto e poco utile.
Per chi sviluppa IA in produzione: i guardrail "pre-confezionati" del modello base spesso non bastano. Serve aggiungere guardrail custom (filtri, regole di business, monitoring) per il tuo caso d'uso.