Latent Space

[lèitent spèis]

Spazio matematico interno dove un modello rappresenta i dati in forma compressa. Lì succede la magia degli embedding e dei modelli generativi.

Il latent space (in italiano: spazio latente) è lo spazio matematico interno dove un modello rappresenta i dati. Pensa a un parco enorme dove ogni punto corrisponde a un'immagine, un testo, un suono. Punti vicini = dati simili.

"Latente" perché non è osservabile direttamente: non sono pixel, non sono parole, sono numeri astratti. Tipicamente vettori da poche decine a qualche migliaio di dimensioni.

Esempi concreti:

  • Embedding di parole: "re" e "regina" sono vicini, "re - uomo + donna ≈ regina". Aritmetica nel latente.
  • VAE di Stable Diffusion: un'immagine 512x512 (786.432 numeri) compressa in 64x64x4 = 16.384 numeri. Il diffusion lavora qui, è 50x più veloce.
  • Latente di una GAN: campioni rumore casuale, attraversi il generator, esce un'immagine.
  • Hidden states di un LLM: le rappresentazioni interne di ogni layer, dove "vivono" i concetti.

Cose belle del latente:

  • Interpolazione: cammini da un punto all'altro, ottieni una transizione fluida tra gli output corrispondenti. Famoso: morphing tra facce nelle GAN.
  • Aritmetica semantica: somme e differenze hanno senso. "Persona sorridente - persona seria + persona arrabbiata" = persona arrabbiata che sorride.
  • Disentanglement: assi del latente che corrispondono a concetti (un asse per età, uno per genere, uno per posa).

Tutto l'editing IA moderno (cambiare stile di un'immagine, voice cloning, traduzione di stile) succede nel latente. Capirlo è capire come funzionano davvero questi modelli.