MoE — Cosa significa, esempi, come si usa

Mixture of Experts (MoE) è un'architettura dove un grande modello IA è composto da tanti "sotto-modelli" specializzati (gli "esperti"), e per ogni input usa solo quelli più pertinenti, non tutti.

Analogia: invece di avere un dipendente sempre presente che sa fare tutto male, hai un team di specialisti e per ogni problema chiami solo i 2-3 esperti giusti. Risultato: parli con esperti veri, ma paghi solo quelli che usi.

Esempio concreto: un modello MoE da 100 miliardi di parametri totali (la "team size") può attivare solo 10 miliardi di parametri per query specifica (gli esperti pertinenti). Performance simili a un dense model da 100B, ma costo computazionale di un 10B. Vantaggio enorme.

Modelli noti che usano MoE: GPT-4 (si suppone, mai confermato), Mistral Mixtral, DeepSeek V3, alcuni Gemini. Quasi tutti i modelli di punta moderni sono MoE in qualche forma.

Vantaggi:

Più parametri totali → più conoscenza.
Meno parametri attivi → meno costo.
Specializzazione: certi esperti diventano bravissimi su sotto-compiti specifici.

Svantaggi:

Tecnicamente più complessi da addestrare e servire.
Il "router" che decide quali esperti chiamare può sbagliare.
Memory footprint resta alto (devi tenere tutti i parametri caricati anche se ne usi pochi).

Tendenza 2025-2026: praticamente tutti i nuovi modelli grandi adottano MoE. La gara non è più solo "quanti parametri", ma "quanti parametri attivi e come li scegli".