Un reasoning model è un LLM specializzato nel ragionare a lungo prima di produrre la risposta finale. A differenza dei modelli "base" che rispondono direttamente, i reasoning model spendono molto "test-time compute" pensando passo passo.
Esempi 2025-2026:
- OpenAI o1, o3, o3-mini, o4: la prima famiglia di reasoning model commerciali.
- DeepSeek-R series: open weights, ragionamento esteso, base pubblica.
- Claude con extended thinking: Anthropic ha aggiunto modalità reasoning.
- Gemini con deep thinking: Google equivalente.
- Qwen-Reasoning, varianti cinesi: tutto il settore si è mosso.
Differenza con LLM normali:
- LLM normale: input → output diretto. Veloce.
- Reasoning model: input → "thinking" interno (può essere migliaia di token) → output finale. Lento ma più accurato.
Il "thinking" è chain-of-thought esteso: il modello esplora soluzioni, scarta, riconsidera, torna indietro, prova varianti. Internamente.
Quando funzionano benissimo:
- Problemi matematici complessi.
- Coding di algoritmi non triviali.
- Logica deduttiva.
- Pianificazione multi-step.
- Analisi scientifica.
Quando NON conviene usarli:
- Task creative leggere (perdita di spontaneità).
- Conversazione casual.
- Scrittura non-tecnica.
- Quando serve velocità.
Costi: i reasoning model usano molti più token (per il thinking interno), quindi costano di più per query. Ma per task dove la qualità conta, valgono.
Tendenza 2026: i confini stanno svanendo. I modelli moderni hanno modalità "fast" (no reasoning) e "thinking" attivabili a piacere.
Per chi sviluppa: scegliere fra fast LLM e reasoning model è una decisione di trade-off. Modelli ibridi (con switch) sono il futuro.