Manifold

[mànifold]

Sotto-spazio curvo dentro uno spazio ad alta dimensionalità dove i dati realistici vivono. Capirlo è chiave per i modelli generativi.

Un manifold (in italiano: varietà) è una superficie curva di dimensione bassa immersa in uno spazio di dimensione alta. Concetto matematico, ma cruciale per capire l'IA generativa.

L'idea con un esempio: pensa a tutte le immagini possibili da 1024x1024 pixel. Lo spazio totale ha 3 milioni di dimensioni. Quasi tutti i punti di quello spazio sono rumore casuale. Le immagini "sensate" (volti, paesaggi, oggetti) vivono su un sottospazio molto più piccolo, una specie di superficie ricurva. Quello è il manifold delle immagini reali.

Conseguenze enormi:

  • Generare immagini sensate = generare punti sul manifold. Non in tutto lo spazio.
  • I modelli generativi (GAN, VAE, diffusion) imparano implicitamente la forma del manifold.
  • Manifold hypothesis: ipotesi fondamentale del deep learning. I dati realistici stanno su manifold di dimensione molto bassa rispetto allo spazio ambient.

Perché il deep learning funziona? Una risposta: perché le reti profonde sono ottime a "raddrizzare" il manifold. Mappano i dati dal manifold curvo a uno spazio latente più semplice, dove operazioni geometriche hanno senso.

Applicazioni pratiche del concetto:

  • Riduzione dimensionalità: t-SNE, UMAP cercano di scoprire il manifold sottostante e proiettarlo in 2D-3D per visualizzazione.
  • Anomaly detection: dati lontani dal manifold = anomalie.
  • Generazione: campionando dal latente e mappando al manifold, generi nuovi dati realistici.

Concetto astratto ma utile: spiega perché 1 miliardo di immagini di gatti caricate online hanno una "struttura" che il modello può imparare con relativamente pochi parametri.