Mixtral — Cosa significa, esempi, come si usa

Mixtral è la famiglia di modelli Mixture-of-Experts di Mistral. Il primo Mixtral 8x7B esce dicembre 2023 e fa rumore: prestazioni simili a GPT-3.5 in formato open weights.

Spiegazione semplice del MoE: il modello ha 8 "esperti" da 7 miliardi di parametri ciascuno (totale 47B effettivi, non 56B perché alcuni layer sono condivisi). Per ogni token attiva solo 2 esperti su 8. Risultato: usa meno calcolo di un modello denso 47B, ma con qualità superiore.

Versioni storiche:

Mixtral 8x7B (dicembre 2023): apre la strada del MoE open.
Mixtral 8x22B (aprile 2024): versione più grossa, qualità superiore.

Caratteristiche:

Licenza Apache 2.0 (vera open, libera per uso commerciale).
Context window 32k.
Multilingue ottimo (inglese, francese, italiano, spagnolo, tedesco).
Gira su una buona GPU (con quantizzazione anche 24GB VRAM).

Pro: licenza pulita senza clausole strane (a differenza di Llama), buon rapporto qualità/risorse, italiano decente.

Contro onesti: nel 2025 Mistral ha spostato il focus sui modelli più nuovi (Mistral Large, Codestral, Pixtral). Mixtral resta scaricabile e usabile, ma non riceve più aggiornamenti grossi. Per uso oggi, considera anche le alternative più recenti.