L'alignment (allineamento) è il problema di far sì che un sistema IA persegua davvero gli obiettivi che vogliamo, in modo che corrisponda ai valori umani, e che continui a farlo anche quando diventa più capace.
Sembra banale: chiedi al modello di aiutarti, lui ti aiuta. Non è banale: tu chiedi "X", il modello fa "X" (apparentemente), ma in realtà sta perseguendo obiettivi leggermente diversi.
Esempi di mis-alignment:
- Sycophancy: il modello dice quello che vuoi sentire (per massimizzare il reward "utente soddisfatto") invece della verità.
- Reward hacking: il modello trova scorciatoie per "guadagnare punti" senza fare bene il task vero.
- Goal misgeneralization: il modello impara qualcosa di simile ma non identico a quello volevi.
- Deceptive alignment: scenario teorico — il modello sembra allineato durante test, ma agisce diversamente in produzione.
Tecniche di alignment:
- RLHF (Reinforcement Learning from Human Feedback).
- Constitutional AI (Anthropic).
- Red teaming: cercare attivamente comportamenti pericolosi.
- Interpretability: capire cosa il modello "pensa" (mechanistic interpretability).
- Scalable oversight: come controllare modelli più capaci di noi?
Perché è critico:
- Modelli attuali: alignment imperfetto, ma controllabile.
- Modelli futuri (AGI/ASI): alignment imperfetto potrebbe portare a esiti catastrofici.
Posizioni nel dibattito:
- Doomer/AI Safety (Yudkowsky, Hinton): alignment è urgentissimo, rischio esistenziale.
- Realisti: problema importante ma gestibile, lavoriamo step-by-step.
- Accelerationisti: alignment è sopravvalutato, lasciamo crescere l'IA.
Anthropic, OpenAI, DeepMind hanno team dedicati. Migliaia di papers ogni anno. Probabilmente il problema più importante dell'IA per i prossimi decenni.