o3 annunciato da OpenAI a dicembre 2024, rilasciato gradualmente nel 2025. Successore di o1. Salta il numero "o2" per non confondersi con un operatore telefonico britannico (sì, davvero).
Risultati al benchmark che hanno fatto rumore:
- ARC-AGI: 87.5% (umani: 85%, o1: 32%). Benchmark progettato apposta per essere difficile per le IA. Sembrava impossibile, o3 lo passa.
- FrontierMath: 25% (i modelli precedenti facevano sotto il 2%). Test di matematica avanzata, problemi che richiedono ore a un matematico professionista.
- SWE-bench Verified: 71% (problemi di programmazione reali da repo open source).
Arrivano in due versioni:
- o3: full power, costoso, lento, molto bravo.
- o3-mini: più piccolo, più veloce, più economico. Per la maggior parte dei casi pratici basta.
Costo onesto: il "high compute mode" di o3 al lancio costava migliaia di dollari per task complesso. Non è un modello che usi a caso: lo tiri fuori quando hai un problema serio da risolvere.
Per chi è utile: ricerca scientifica, problemi matematici, ingegneria del software complessa, dimostrazioni formali. Per scrivere un'email è come usare una Ferrari per andare a comprare il pane.