Alignment — Cosa significa, esempi, come si usa

L'alignment (allineamento) è il problema di far sì che un sistema IA persegua davvero gli obiettivi che vogliamo, in modo che corrisponda ai valori umani, e che continui a farlo anche quando diventa più capace.

Sembra banale: chiedi al modello di aiutarti, lui ti aiuta. Non è banale: tu chiedi "X", il modello fa "X" (apparentemente), ma in realtà sta perseguendo obiettivi leggermente diversi.

Esempi di mis-alignment:

Sycophancy: il modello dice quello che vuoi sentire (per massimizzare il reward "utente soddisfatto") invece della verità.
Reward hacking: il modello trova scorciatoie per "guadagnare punti" senza fare bene il task vero.
Goal misgeneralization: il modello impara qualcosa di simile ma non identico a quello volevi.
Deceptive alignment: scenario teorico — il modello sembra allineato durante test, ma agisce diversamente in produzione.

Tecniche di alignment:

RLHF (Reinforcement Learning from Human Feedback).
Constitutional AI (Anthropic).
Red teaming: cercare attivamente comportamenti pericolosi.
Interpretability: capire cosa il modello "pensa" (mechanistic interpretability).
Scalable oversight: come controllare modelli più capaci di noi?

Perché è critico:

Modelli attuali: alignment imperfetto, ma controllabile.
Modelli futuri (AGI/ASI): alignment imperfetto potrebbe portare a esiti catastrofici.

Posizioni nel dibattito:

Doomer/AI Safety (Yudkowsky, Hinton): alignment è urgentissimo, rischio esistenziale.
Realisti: problema importante ma gestibile, lavoriamo step-by-step.
Accelerationisti: alignment è sopravvalutato, lasciamo crescere l'IA.

Anthropic, OpenAI, DeepMind hanno team dedicati. Migliaia di papers ogni anno. Probabilmente il problema più importante dell'IA per i prossimi decenni.