Un modello multimodale può lavorare con più tipi di dati ("modalità") contemporaneamente: testo, immagini, audio, video. Differenza con i modelli vecchi che facevano solo una cosa (solo testo, solo immagini).
Esempi pratici:
- Mostri una foto a ChatGPT-4V e gli chiedi "cosa c'è in questa immagine, e dimmi se questo cibo è scaduto guardando l'etichetta". Lui legge l'etichetta, capisce la scadenza, risponde.
- Carichi un PDF con immagini su Claude. Lui legge il testo E descrive le immagini.
- Mandi un audio a Gemini. Lui lo trascrive E ti dà un riassunto del contenuto.
- Generi un video da un prompt testuale (Sora, Runway, Veo).
Modelli multimodali principali nel 2026:
- GPT-4V / GPT-5 (OpenAI): vision + text + voice + immagini.
- Claude: text + vision (immagini), no audio nativo.
- Gemini: text + vision + audio + video. Il più "completo" in multimodalità.
- Llama 3.2 e successori: vision aperta.
- Modelli specializzati: Whisper (audio→testo), DALL-E/Midjourney/FLUX (testo→immagine), Sora/Runway (testo→video).
Per uso pratico:
- Scansioni e OCR: l'IA multimodale ha rivoluzionato la lettura di documenti scansionati. Spesso meglio dei tool OCR tradizionali.
- Analisi screenshot: per supporto tecnico, mandi screenshot, l'IA capisce il problema.
- Accessibilità: descrivere immagini per non vedenti.
- Generazione contenuti: dal prompt al post Instagram con grafica.
Limiti: la qualità della visione è migliorata tantissimo ma non è perfetta. Errori su dettagli piccoli, su grafici complessi, su testo manoscritto. Non delegare ciecamente analisi visive critiche.