Diffusion Model

[difùsion mòdel]

Tipo di modello IA che genera immagini, video, audio partendo da rumore casuale e affinandolo passo passo. Stable Diffusion, Midjourney, Sora.

I diffusion model sono il tipo di IA generativa che sta dietro a quasi tutta la generazione di immagini, video e audio moderna. Funzionano in modo molto diverso dagli LLM.

Idea base: parti da rumore casuale (tipo statica TV) e progressivamente lo "denoisi" passo passo, applicando il modello, fino a ottenere un'immagine coerente con il prompt che hai dato.

Tecnicamente: durante l'addestramento, prendono immagini reali e progressivamente le rovinano con rumore. Imparano a fare il processo inverso (dato rumore, recupera l'immagine). A inferenza, gli dai rumore + prompt e generano un'immagine plausibile per quel prompt.

Modelli diffusion famosi:

  • Stable Diffusion: open source, gira sul tuo PC, immensa community di varianti.
  • Midjourney: closed, qualità altissima, comunità Discord.
  • DALL-E (OpenAI): integrato in ChatGPT.
  • FLUX (Black Forest Labs): nuova generazione open weights, fotorealismo.
  • Sora (OpenAI): video diffusion, qualità eccezionale.
  • Runway, Pika, Luma, Kling: video diffusion concorrenti.

Differenza con LLM:

  • LLM: testo, generazione sequenziale (parola dopo parola).
  • Diffusion: media (immagini/audio/video), generazione iterativa (raffinamento dell'intero output).

Per uso pratico: chi crea contenuti visuali (designer, marketing, video editor) lavora costantemente con diffusion model. La generazione di immagini IA è ormai un pilastro del marketing moderno e della creatività.

Implicazioni etiche serie: deepfake, copyright (le immagini sono addestrate su lavori di artisti senza consenso), watermarking, riconoscimento di immagini generate vs reali.