RLHF sta per Reinforcement Learning from Human Feedback. È la tecnica che ha trasformato gli LLM "grezzi" in chatbot utili, gentili, allineati con quello che gli umani vogliono.
Funziona così:
- Si parte da un LLM pre-addestrato su tonnellate di testo. Sa scrivere, ma in modo grezzo.
- Si fanno generare al modello varie risposte alla stessa domanda.
- Umani valutano queste risposte (qual è meglio, qual è peggio).
- Si addestra un secondo modello (reward model) a predire le preferenze umane.
- Si usa il reward model per addestrare ulteriormente l'LLM iniziale: rispondi in modo che il reward model dica "buona risposta".
Effetto: l'LLM impara a produrre risposte che gli umani preferiscono. Più educate, più rilevanti, più sicure.
Senza RLHF, ChatGPT sarebbe stato GPT-3 grezzo: capace di completare testi, ma non un chatbot utile. RLHF è la tecnica che ha reso ChatGPT esplosivo a fine 2022.
Limiti:
- Costo: serve tantissima valutazione umana.
- Bias: i bias dei valutatori entrano nel modello.
- Reward hacking: il modello può imparare a "ingannare" il reward model invece di rispondere bene davvero.
- Sycophancy: i modelli RLHF tendono a essere "sycophantic" (compiacenti), dicono quello che vorresti sentire invece della verità.
Tecnica correlata: Constitutional AI (di Anthropic), dove invece di feedback umano si usa una "costituzione" scritta che il modello deve seguire, e il modello si auto-corregge usando quella.