RLHF — Cosa significa, esempi, come si usa

RLHF sta per Reinforcement Learning from Human Feedback. È la tecnica che ha trasformato gli LLM "grezzi" in chatbot utili, gentili, allineati con quello che gli umani vogliono.

Funziona così:

Si parte da un LLM pre-addestrato su tonnellate di testo. Sa scrivere, ma in modo grezzo.
Si fanno generare al modello varie risposte alla stessa domanda.
Umani valutano queste risposte (qual è meglio, qual è peggio).
Si addestra un secondo modello (reward model) a predire le preferenze umane.
Si usa il reward model per addestrare ulteriormente l'LLM iniziale: rispondi in modo che il reward model dica "buona risposta".

Effetto: l'LLM impara a produrre risposte che gli umani preferiscono. Più educate, più rilevanti, più sicure.

Senza RLHF, ChatGPT sarebbe stato GPT-3 grezzo: capace di completare testi, ma non un chatbot utile. RLHF è la tecnica che ha reso ChatGPT esplosivo a fine 2022.

Limiti:

Costo: serve tantissima valutazione umana.
Bias: i bias dei valutatori entrano nel modello.
Reward hacking: il modello può imparare a "ingannare" il reward model invece di rispondere bene davvero.
Sycophancy: i modelli RLHF tendono a essere "sycophantic" (compiacenti), dicono quello che vorresti sentire invece della verità.

Tecnica correlata: Constitutional AI (di Anthropic), dove invece di feedback umano si usa una "costituzione" scritta che il modello deve seguire, e il modello si auto-corregge usando quella.