I diffusion model sono il tipo di IA generativa che sta dietro a quasi tutta la generazione di immagini, video e audio moderna. Funzionano in modo molto diverso dagli LLM.
Idea base: parti da rumore casuale (tipo statica TV) e progressivamente lo "denoisi" passo passo, applicando il modello, fino a ottenere un'immagine coerente con il prompt che hai dato.
Tecnicamente: durante l'addestramento, prendono immagini reali e progressivamente le rovinano con rumore. Imparano a fare il processo inverso (dato rumore, recupera l'immagine). A inferenza, gli dai rumore + prompt e generano un'immagine plausibile per quel prompt.
Modelli diffusion famosi:
- Stable Diffusion: open source, gira sul tuo PC, immensa community di varianti.
- Midjourney: closed, qualità altissima, comunità Discord.
- DALL-E (OpenAI): integrato in ChatGPT.
- FLUX (Black Forest Labs): nuova generazione open weights, fotorealismo.
- Sora (OpenAI): video diffusion, qualità eccezionale.
- Runway, Pika, Luma, Kling: video diffusion concorrenti.
Differenza con LLM:
- LLM: testo, generazione sequenziale (parola dopo parola).
- Diffusion: media (immagini/audio/video), generazione iterativa (raffinamento dell'intero output).
Per uso pratico: chi crea contenuti visuali (designer, marketing, video editor) lavora costantemente con diffusion model. La generazione di immagini IA è ormai un pilastro del marketing moderno e della creatività.
Implicazioni etiche serie: deepfake, copyright (le immagini sono addestrate su lavori di artisti senza consenso), watermarking, riconoscimento di immagini generate vs reali.