GPT-4o

[gi-pi-ti quattro o]

Modello OpenAI uscito a maggio 2024. La 'o' sta per omni: gestisce testo, audio, immagini in modo nativo. Veloce e relativamente economico.

GPT-4o rilasciato 13 maggio 2024 da OpenAI. La "o" sta per omni: tratta testo, audio, immagini come una cosa sola, non come moduli separati attaccati.

Differenza importante rispetto a GPT-4: prima per parlare con la voce dovevi passare per Whisper (audio→testo) + GPT-4 (testo→testo) + TTS (testo→audio). Tre modelli, latenza alta. GPT-4o fa tutto in un modello: latenza vocale sotto i 300ms, conversazione naturale.

Caratteristiche pratiche:

  • Context window 128k token.
  • Più veloce di GPT-4 Turbo, costa la metà (5 dollari per milione token input).
  • Multimodale nativo: vede immagini, sente audio, risponde con voce.
  • Disponibile gratis su ChatGPT (con limiti) e a pagamento via API.

Casi d'uso forti: chatbot vocali, analisi di immagini (OCR, descrizione), interpretazione di grafici, traduzione simultanea, app multimodali.

Limite: sul ragionamento puro è inferiore alla serie o1/o3. Per task matematici complessi o pianificazione strutturata non è la scelta. Per tutto il resto è il cavallo da lavoro perfetto.

Curiosità: la "voice mode" di ChatGPT che è diventata virale nel 2024 (con Sky, la voce simile a Scarlett Johansson) gira su GPT-4o. Polemica grossa, voce ritirata.