Il reinforcement learning è il tipo di machine learning ispirato al modo in cui imparano gli animali: prova qualcosa, ricevi feedback (premio o punizione), aggiorna comportamento.
Componenti chiave:
- Agent: il modello che decide cosa fare.
- Environment: il mondo in cui agisce.
- Action: ogni mossa che l'agent può fare.
- Reward: il punteggio che riceve dopo ogni azione.
- Policy: la strategia che l'agent impara.
Successi famosi:
- AlphaGo (DeepMind, 2016): batte campione mondiale di Go imparando a giocare contro se stesso.
- AlphaZero: impara scacchi, Go, shogi senza regole umane, solo per RL.
- Robot autonomi: imparano a camminare, manipolare oggetti.
- RLHF: la tecnica che ha trasformato GPT-3 grezzo in ChatGPT.
- Reasoning models (DeepSeek-R, OpenAI o1): RL per insegnare a ragionare.
Forza: trova soluzioni creative che umani non avrebbero pensato. AlphaGo fece mosse mai viste in 2.500 anni di storia del Go.
Limite: serve un environment dove il modello può sperimentare senza fare danni reali. Per cose nel mondo reale (guidare un'auto, gestire denaro), serve simulazione o costi enormi di esperimenti.