Multimodale

[multi-modàle]

Modello IA che può capire e/o generare più tipi di dato: testo, immagini, audio, video. ChatGPT moderno, Claude, Gemini sono tutti multimodali.

Un modello multimodale può lavorare con più tipi di dati ("modalità") contemporaneamente: testo, immagini, audio, video. Differenza con i modelli vecchi che facevano solo una cosa (solo testo, solo immagini).

Esempi pratici:

  • Mostri una foto a ChatGPT-4V e gli chiedi "cosa c'è in questa immagine, e dimmi se questo cibo è scaduto guardando l'etichetta". Lui legge l'etichetta, capisce la scadenza, risponde.
  • Carichi un PDF con immagini su Claude. Lui legge il testo E descrive le immagini.
  • Mandi un audio a Gemini. Lui lo trascrive E ti dà un riassunto del contenuto.
  • Generi un video da un prompt testuale (Sora, Runway, Veo).

Modelli multimodali principali nel 2026:

  • GPT-4V / GPT-5 (OpenAI): vision + text + voice + immagini.
  • Claude: text + vision (immagini), no audio nativo.
  • Gemini: text + vision + audio + video. Il più "completo" in multimodalità.
  • Llama 3.2 e successori: vision aperta.
  • Modelli specializzati: Whisper (audio→testo), DALL-E/Midjourney/FLUX (testo→immagine), Sora/Runway (testo→video).

Per uso pratico:

  • Scansioni e OCR: l'IA multimodale ha rivoluzionato la lettura di documenti scansionati. Spesso meglio dei tool OCR tradizionali.
  • Analisi screenshot: per supporto tecnico, mandi screenshot, l'IA capisce il problema.
  • Accessibilità: descrivere immagini per non vedenti.
  • Generazione contenuti: dal prompt al post Instagram con grafica.

Limiti: la qualità della visione è migliorata tantissimo ma non è perfetta. Errori su dettagli piccoli, su grafici complessi, su testo manoscritto. Non delegare ciecamente analisi visive critiche.