Un benchmark in IA è un test standardizzato usato per valutare e confrontare modelli su un task specifico. Sono il modo principale per dire "il modello X è migliore del modello Y".
Benchmark famosi:
- MMLU (Massive Multitask Language Understanding): conoscenza generale su 57 materie.
- HumanEval: coding (problem di programmazione).
- GSM8K: matematica delle scuole elementari.
- MATH: matematica olimpiadi.
- HellaSwag: ragionamento di senso comune.
- TruthfulQA: verità delle risposte.
- ARC: ragionamento scientifico.
- SWE-bench: programmazione real-world.
- GPQA: domande PhD-level scienza.
- Chatbot Arena: human preference, modelli si sfidano "blind".
Come funziona un benchmark:
- Set di domande/task con risposte corrette note.
- Si fa rispondere il modello a tutte.
- Si calcola accuracy / score.
- Si confronta con altri modelli.
Limiti dei benchmark:
- Saturation: i modelli moderni saturano benchmark vecchi (95%+). Servono benchmark nuovi più difficili.
- Contamination: il modello potrebbe aver visto le domande durante il training. Score inflazionati.
- Generalizzabilità: bravo nel benchmark ≠ bravo nel mondo reale.
- Gaming: i lab ottimizzano per i benchmark, non sempre per qualità reale.
Iniziative anti-saturation:
- FrontierMath: matematica estrema.
- Humanity's Last Exam: domande PhD ultra-specifiche.
- METR Tasks: task realistici lunghi.
- Real-world deployment: come si comportano davvero in produzione.
Per chi sceglie un modello: i benchmark sono punto di partenza ma non l'ultima parola. Test sul tuo caso d'uso specifico vale più di score generici.