GPT-4o rilasciato 13 maggio 2024 da OpenAI. La "o" sta per omni: tratta testo, audio, immagini come una cosa sola, non come moduli separati attaccati.
Differenza importante rispetto a GPT-4: prima per parlare con la voce dovevi passare per Whisper (audio→testo) + GPT-4 (testo→testo) + TTS (testo→audio). Tre modelli, latenza alta. GPT-4o fa tutto in un modello: latenza vocale sotto i 300ms, conversazione naturale.
Caratteristiche pratiche:
- Context window 128k token.
- Più veloce di GPT-4 Turbo, costa la metà (5 dollari per milione token input).
- Multimodale nativo: vede immagini, sente audio, risponde con voce.
- Disponibile gratis su ChatGPT (con limiti) e a pagamento via API.
Casi d'uso forti: chatbot vocali, analisi di immagini (OCR, descrizione), interpretazione di grafici, traduzione simultanea, app multimodali.
Limite: sul ragionamento puro è inferiore alla serie o1/o3. Per task matematici complessi o pianificazione strutturata non è la scelta. Per tutto il resto è il cavallo da lavoro perfetto.
Curiosità: la "voice mode" di ChatGPT che è diventata virale nel 2024 (con Sky, la voce simile a Scarlett Johansson) gira su GPT-4o. Polemica grossa, voce ritirata.