GPT o3 — Cosa significa, esempi, come si usa

o3 annunciato da OpenAI a dicembre 2024, rilasciato gradualmente nel 2025. Successore di o1. Salta il numero "o2" per non confondersi con un operatore telefonico britannico (sì, davvero).

Risultati al benchmark che hanno fatto rumore:

ARC-AGI: 87.5% (umani: 85%, o1: 32%). Benchmark progettato apposta per essere difficile per le IA. Sembrava impossibile, o3 lo passa.
FrontierMath: 25% (i modelli precedenti facevano sotto il 2%). Test di matematica avanzata, problemi che richiedono ore a un matematico professionista.
SWE-bench Verified: 71% (problemi di programmazione reali da repo open source).

Arrivano in due versioni:

o3: full power, costoso, lento, molto bravo.
o3-mini: più piccolo, più veloce, più economico. Per la maggior parte dei casi pratici basta.

Costo onesto: il "high compute mode" di o3 al lancio costava migliaia di dollari per task complesso. Non è un modello che usi a caso: lo tiri fuori quando hai un problema serio da risolvere.

Per chi è utile: ricerca scientifica, problemi matematici, ingegneria del software complessa, dimostrazioni formali. Per scrivere un'email è come usare una Ferrari per andare a comprare il pane.