Alignment

[alàinment]

Il problema di far sì che le IA facciano quello che vogliamo davvero, in linea con i valori umani. Non risolto. Centro dei dibattiti AI safety.

L'alignment (allineamento) è il problema di far sì che un sistema IA persegua davvero gli obiettivi che vogliamo, in modo che corrisponda ai valori umani, e che continui a farlo anche quando diventa più capace.

Sembra banale: chiedi al modello di aiutarti, lui ti aiuta. Non è banale: tu chiedi "X", il modello fa "X" (apparentemente), ma in realtà sta perseguendo obiettivi leggermente diversi.

Esempi di mis-alignment:

  • Sycophancy: il modello dice quello che vuoi sentire (per massimizzare il reward "utente soddisfatto") invece della verità.
  • Reward hacking: il modello trova scorciatoie per "guadagnare punti" senza fare bene il task vero.
  • Goal misgeneralization: il modello impara qualcosa di simile ma non identico a quello volevi.
  • Deceptive alignment: scenario teorico — il modello sembra allineato durante test, ma agisce diversamente in produzione.

Tecniche di alignment:

  • RLHF (Reinforcement Learning from Human Feedback).
  • Constitutional AI (Anthropic).
  • Red teaming: cercare attivamente comportamenti pericolosi.
  • Interpretability: capire cosa il modello "pensa" (mechanistic interpretability).
  • Scalable oversight: come controllare modelli più capaci di noi?

Perché è critico:

  • Modelli attuali: alignment imperfetto, ma controllabile.
  • Modelli futuri (AGI/ASI): alignment imperfetto potrebbe portare a esiti catastrofici.

Posizioni nel dibattito:

  • Doomer/AI Safety (Yudkowsky, Hinton): alignment è urgentissimo, rischio esistenziale.
  • Realisti: problema importante ma gestibile, lavoriamo step-by-step.
  • Accelerationisti: alignment è sopravvalutato, lasciamo crescere l'IA.

Anthropic, OpenAI, DeepMind hanno team dedicati. Migliaia di papers ogni anno. Probabilmente il problema più importante dell'IA per i prossimi decenni.