Multimodale — Cosa significa, esempi, come si usa

Un modello multimodale può lavorare con più tipi di dati ("modalità") contemporaneamente: testo, immagini, audio, video. Differenza con i modelli vecchi che facevano solo una cosa (solo testo, solo immagini).

Esempi pratici:

Mostri una foto a ChatGPT-4V e gli chiedi "cosa c'è in questa immagine, e dimmi se questo cibo è scaduto guardando l'etichetta". Lui legge l'etichetta, capisce la scadenza, risponde.
Carichi un PDF con immagini su Claude. Lui legge il testo E descrive le immagini.
Mandi un audio a Gemini. Lui lo trascrive E ti dà un riassunto del contenuto.
Generi un video da un prompt testuale (Sora, Runway, Veo).

Modelli multimodali principali nel 2026:

GPT-4V / GPT-5 (OpenAI): vision + text + voice + immagini.
Claude: text + vision (immagini), no audio nativo.
Gemini: text + vision + audio + video. Il più "completo" in multimodalità.
Llama 3.2 e successori: vision aperta.
Modelli specializzati: Whisper (audio→testo), DALL-E/Midjourney/FLUX (testo→immagine), Sora/Runway (testo→video).

Per uso pratico:

Scansioni e OCR: l'IA multimodale ha rivoluzionato la lettura di documenti scansionati. Spesso meglio dei tool OCR tradizionali.
Analisi screenshot: per supporto tecnico, mandi screenshot, l'IA capisce il problema.
Accessibilità: descrivere immagini per non vedenti.
Generazione contenuti: dal prompt al post Instagram con grafica.

Limiti: la qualità della visione è migliorata tantissimo ma non è perfetta. Errori su dettagli piccoli, su grafici complessi, su testo manoscritto. Non delegare ciecamente analisi visive critiche.