Benchmark — Cosa significa, esempi, come si usa

Un benchmark in IA è un test standardizzato usato per valutare e confrontare modelli su un task specifico. Sono il modo principale per dire "il modello X è migliore del modello Y".

Benchmark famosi:

MMLU (Massive Multitask Language Understanding): conoscenza generale su 57 materie.
HumanEval: coding (problem di programmazione).
GSM8K: matematica delle scuole elementari.
MATH: matematica olimpiadi.
HellaSwag: ragionamento di senso comune.
TruthfulQA: verità delle risposte.
ARC: ragionamento scientifico.
SWE-bench: programmazione real-world.
GPQA: domande PhD-level scienza.
Chatbot Arena: human preference, modelli si sfidano "blind".

Come funziona un benchmark:

Set di domande/task con risposte corrette note.
Si fa rispondere il modello a tutte.
Si calcola accuracy / score.
Si confronta con altri modelli.

Limiti dei benchmark:

Saturation: i modelli moderni saturano benchmark vecchi (95%+). Servono benchmark nuovi più difficili.
Contamination: il modello potrebbe aver visto le domande durante il training. Score inflazionati.
Generalizzabilità: bravo nel benchmark ≠ bravo nel mondo reale.
Gaming: i lab ottimizzano per i benchmark, non sempre per qualità reale.

Iniziative anti-saturation:

FrontierMath: matematica estrema.
Humanity's Last Exam: domande PhD ultra-specifiche.
METR Tasks: task realistici lunghi.
Real-world deployment: come si comportano davvero in produzione.

Per chi sceglie un modello: i benchmark sono punto di partenza ma non l'ultima parola. Test sul tuo caso d'uso specifico vale più di score generici.