Mixture of Experts (MoE) è un'architettura dove un grande modello IA è composto da tanti "sotto-modelli" specializzati (gli "esperti"), e per ogni input usa solo quelli più pertinenti, non tutti.
Analogia: invece di avere un dipendente sempre presente che sa fare tutto male, hai un team di specialisti e per ogni problema chiami solo i 2-3 esperti giusti. Risultato: parli con esperti veri, ma paghi solo quelli che usi.
Esempio concreto: un modello MoE da 100 miliardi di parametri totali (la "team size") può attivare solo 10 miliardi di parametri per query specifica (gli esperti pertinenti). Performance simili a un dense model da 100B, ma costo computazionale di un 10B. Vantaggio enorme.
Modelli noti che usano MoE: GPT-4 (si suppone, mai confermato), Mistral Mixtral, DeepSeek V3, alcuni Gemini. Quasi tutti i modelli di punta moderni sono MoE in qualche forma.
Vantaggi:
- Più parametri totali → più conoscenza.
- Meno parametri attivi → meno costo.
- Specializzazione: certi esperti diventano bravissimi su sotto-compiti specifici.
Svantaggi:
- Tecnicamente più complessi da addestrare e servire.
- Il "router" che decide quali esperti chiamare può sbagliare.
- Memory footprint resta alto (devi tenere tutti i parametri caricati anche se ne usi pochi).
Tendenza 2025-2026: praticamente tutti i nuovi modelli grandi adottano MoE. La gara non è più solo "quanti parametri", ma "quanti parametri attivi e come li scegli".