GPT-4o — Cosa significa, esempi, come si usa

GPT-4o rilasciato 13 maggio 2024 da OpenAI. La "o" sta per omni: tratta testo, audio, immagini come una cosa sola, non come moduli separati attaccati.

Differenza importante rispetto a GPT-4: prima per parlare con la voce dovevi passare per Whisper (audio→testo) + GPT-4 (testo→testo) + TTS (testo→audio). Tre modelli, latenza alta. GPT-4o fa tutto in un modello: latenza vocale sotto i 300ms, conversazione naturale.

Caratteristiche pratiche:

Context window 128k token.
Più veloce di GPT-4 Turbo, costa la metà (5 dollari per milione token input).
Multimodale nativo: vede immagini, sente audio, risponde con voce.
Disponibile gratis su ChatGPT (con limiti) e a pagamento via API.

Casi d'uso forti: chatbot vocali, analisi di immagini (OCR, descrizione), interpretazione di grafici, traduzione simultanea, app multimodali.

Limite: sul ragionamento puro è inferiore alla serie o1/o3. Per task matematici complessi o pianificazione strutturata non è la scelta. Per tutto il resto è il cavallo da lavoro perfetto.

Curiosità: la "voice mode" di ChatGPT che è diventata virale nel 2024 (con Sky, la voce simile a Scarlett Johansson) gira su GPT-4o. Polemica grossa, voce ritirata.