Reinforcement Learning: cos'è e significato nell'IA

Il reinforcement learning è il tipo di machine learning ispirato al modo in cui imparano gli animali: prova qualcosa, ricevi feedback (premio o punizione), aggiorna comportamento.

Componenti chiave:

Agent: il modello che decide cosa fare.
Environment: il mondo in cui agisce.
Action: ogni mossa che l'agent può fare.
Reward: il punteggio che riceve dopo ogni azione.
Policy: la strategia che l'agent impara.

Successi famosi:

AlphaGo (DeepMind, 2016): batte campione mondiale di Go imparando a giocare contro se stesso.
AlphaZero: impara scacchi, Go, shogi senza regole umane, solo per RL.
Robot autonomi: imparano a camminare, manipolare oggetti.
RLHF: la tecnica che ha trasformato GPT-3 grezzo in ChatGPT.
Reasoning models (DeepSeek-R, OpenAI o1): RL per insegnare a ragionare.

Forza: trova soluzioni creative che umani non avrebbero pensato. AlphaGo fece mosse mai viste in 2.500 anni di storia del Go.

Limite: serve un environment dove il modello può sperimentare senza fare danni reali. Per cose nel mondo reale (guidare un'auto, gestire denaro), serve simulazione o costi enormi di esperimenti.

Reinforcement Learning(RL)

Vedi anche