Il latent space (in italiano: spazio latente) è lo spazio matematico interno dove un modello rappresenta i dati. Pensa a un parco enorme dove ogni punto corrisponde a un'immagine, un testo, un suono. Punti vicini = dati simili.
"Latente" perché non è osservabile direttamente: non sono pixel, non sono parole, sono numeri astratti. Tipicamente vettori da poche decine a qualche migliaio di dimensioni.
Esempi concreti:
- Embedding di parole: "re" e "regina" sono vicini, "re - uomo + donna ≈ regina". Aritmetica nel latente.
- VAE di Stable Diffusion: un'immagine 512x512 (786.432 numeri) compressa in 64x64x4 = 16.384 numeri. Il diffusion lavora qui, è 50x più veloce.
- Latente di una GAN: campioni rumore casuale, attraversi il generator, esce un'immagine.
- Hidden states di un LLM: le rappresentazioni interne di ogni layer, dove "vivono" i concetti.
Cose belle del latente:
- Interpolazione: cammini da un punto all'altro, ottieni una transizione fluida tra gli output corrispondenti. Famoso: morphing tra facce nelle GAN.
- Aritmetica semantica: somme e differenze hanno senso. "Persona sorridente - persona seria + persona arrabbiata" = persona arrabbiata che sorride.
- Disentanglement: assi del latente che corrispondono a concetti (un asse per età, uno per genere, uno per posa).
Tutto l'editing IA moderno (cambiare stile di un'immagine, voice cloning, traduzione di stile) succede nel latente. Capirlo è capire come funzionano davvero questi modelli.