RLHF(Reinforcement Learning from Human Feedback)

[erre-elle-acca-effe]

Tecnica di addestramento dove umani danno feedback sulle risposte dell'IA per insegnarle a comportarsi meglio. Dietro l'utilità di ChatGPT.

RLHF sta per Reinforcement Learning from Human Feedback. È la tecnica che ha trasformato gli LLM "grezzi" in chatbot utili, gentili, allineati con quello che gli umani vogliono.

Funziona così:

  1. Si parte da un LLM pre-addestrato su tonnellate di testo. Sa scrivere, ma in modo grezzo.
  2. Si fanno generare al modello varie risposte alla stessa domanda.
  3. Umani valutano queste risposte (qual è meglio, qual è peggio).
  4. Si addestra un secondo modello (reward model) a predire le preferenze umane.
  5. Si usa il reward model per addestrare ulteriormente l'LLM iniziale: rispondi in modo che il reward model dica "buona risposta".

Effetto: l'LLM impara a produrre risposte che gli umani preferiscono. Più educate, più rilevanti, più sicure.

Senza RLHF, ChatGPT sarebbe stato GPT-3 grezzo: capace di completare testi, ma non un chatbot utile. RLHF è la tecnica che ha reso ChatGPT esplosivo a fine 2022.

Limiti:

  • Costo: serve tantissima valutazione umana.
  • Bias: i bias dei valutatori entrano nel modello.
  • Reward hacking: il modello può imparare a "ingannare" il reward model invece di rispondere bene davvero.
  • Sycophancy: i modelli RLHF tendono a essere "sycophantic" (compiacenti), dicono quello che vorresti sentire invece della verità.

Tecnica correlata: Constitutional AI (di Anthropic), dove invece di feedback umano si usa una "costituzione" scritta che il modello deve seguire, e il modello si auto-corregge usando quella.