o1 (chiamato inizialmente "Strawberry" nei rumor) rilasciato da OpenAI a settembre 2024. Primo modello commerciale dichiaratamente reasoning: prima di rispondere "pensa" attraverso una catena interna di ragionamenti.
Cosa cambia rispetto a GPT-4o: invece di sparare la risposta in pochi secondi, o1 prende anche un minuto per problemi complessi. Genera internamente decine di step di chain-of-thought, valuta, scarta strade sbagliate, arriva a una risposta più solida.
Risultati concreti al lancio:
- 83% sulle qualifiche all'olimpiade di matematica IMO (GPT-4o: 13%).
- Performance da dottorando in fisica, chimica, biologia.
- 89esimo percentile su Codeforces (programmazione competitiva).
Limiti seri:
- Lento: aspetta secondi o minuti.
- Caro: 15 dollari per milione token input al lancio, molto di più in output (paghi anche i "reasoning token" interni).
- Non vede: niente immagini al lancio (poi aggiunte).
- Non scrive necessariamente meglio: per scrittura creativa o conversazione GPT-4o è uguale o meglio.
Per cosa serve davvero: matematica, scienza, debug di codice complesso, problemi logici. Per chiacchierare o scrivere email è eccessivo.