Benchmark

[bèncmark]

Test standardizzati per valutare modelli IA. Come confrontano modelli diversi. MMLU, HumanEval, GSM8K, MATH, ecc.

Un benchmark in IA è un test standardizzato usato per valutare e confrontare modelli su un task specifico. Sono il modo principale per dire "il modello X è migliore del modello Y".

Benchmark famosi:

  • MMLU (Massive Multitask Language Understanding): conoscenza generale su 57 materie.
  • HumanEval: coding (problem di programmazione).
  • GSM8K: matematica delle scuole elementari.
  • MATH: matematica olimpiadi.
  • HellaSwag: ragionamento di senso comune.
  • TruthfulQA: verità delle risposte.
  • ARC: ragionamento scientifico.
  • SWE-bench: programmazione real-world.
  • GPQA: domande PhD-level scienza.
  • Chatbot Arena: human preference, modelli si sfidano "blind".

Come funziona un benchmark:

  1. Set di domande/task con risposte corrette note.
  2. Si fa rispondere il modello a tutte.
  3. Si calcola accuracy / score.
  4. Si confronta con altri modelli.

Limiti dei benchmark:

  • Saturation: i modelli moderni saturano benchmark vecchi (95%+). Servono benchmark nuovi più difficili.
  • Contamination: il modello potrebbe aver visto le domande durante il training. Score inflazionati.
  • Generalizzabilità: bravo nel benchmark ≠ bravo nel mondo reale.
  • Gaming: i lab ottimizzano per i benchmark, non sempre per qualità reale.

Iniziative anti-saturation:

  • FrontierMath: matematica estrema.
  • Humanity's Last Exam: domande PhD ultra-specifiche.
  • METR Tasks: task realistici lunghi.
  • Real-world deployment: come si comportano davvero in produzione.

Per chi sceglie un modello: i benchmark sono punto di partenza ma non l'ultima parola. Test sul tuo caso d'uso specifico vale più di score generici.