Reinforcement Learning(RL)

[reinforsment lèrning]

Machine learning dove il modello impara per tentativi ed errori, ricevendo premi o punizioni. Dietro AlphaGo, robot autonomi, RLHF.

Il reinforcement learning è il tipo di machine learning ispirato al modo in cui imparano gli animali: prova qualcosa, ricevi feedback (premio o punizione), aggiorna comportamento.

Componenti chiave:

  • Agent: il modello che decide cosa fare.
  • Environment: il mondo in cui agisce.
  • Action: ogni mossa che l'agent può fare.
  • Reward: il punteggio che riceve dopo ogni azione.
  • Policy: la strategia che l'agent impara.

Successi famosi:

  • AlphaGo (DeepMind, 2016): batte campione mondiale di Go imparando a giocare contro se stesso.
  • AlphaZero: impara scacchi, Go, shogi senza regole umane, solo per RL.
  • Robot autonomi: imparano a camminare, manipolare oggetti.
  • RLHF: la tecnica che ha trasformato GPT-3 grezzo in ChatGPT.
  • Reasoning models (DeepSeek-R, OpenAI o1): RL per insegnare a ragionare.

Forza: trova soluzioni creative che umani non avrebbero pensato. AlphaGo fece mosse mai viste in 2.500 anni di storia del Go.

Limite: serve un environment dove il modello può sperimentare senza fare danni reali. Per cose nel mondo reale (guidare un'auto, gestire denaro), serve simulazione o costi enormi di esperimenti.