Model Evaluation — Cosa significa, esempi, come si usa

La model evaluation è l'insieme delle metodologie per misurare capacità, comportamenti e rischi di un modello IA. Va oltre i benchmark di accuratezza standard.

Tipi di valutazione:

Capability evaluation: cosa il modello sa fare. MMLU per conoscenze, HumanEval per coding, GSM8K per matematica.
Safety evaluation: rifiuta richieste dannose? Resiste a jailbreak? StrongREJECT, HarmBench.
Alignment evaluation: si comporta come dovrebbe? Honest, Helpful, Harmless?
Dangerous capability evaluation: ha capacità pericolose? Può aiutare con bioarmi (WMDP), con cyber attacchi, con manipolazione persuasiva?
Bias evaluation: BOLD, BBQ, StereoSet, RealToxicityPrompts.
Robustness evaluation: regge a input perturbati, adversarial?
Calibration evaluation: la confidenza dichiarata corrisponde all'accuratezza reale?

Organizzazioni dedicate:

METR: valuta autonomia di modelli di frontiera per OpenAI, Anthropic, governi.
Apollo Research: specializzati su deception evaluation.
UK AI Safety Institute (AISI): valutazioni governative pre-deployment dei modelli.
US AI Safety Institute: equivalente USA.
Center for AI Safety (CAIS): ricerca accademica/non profit.

Limiti delle evaluation attuali:

Contamination: i modelli "vedono" i benchmark durante il training, performance gonfiata.
Goodhart's law: quando una metrica diventa target, smette di essere buona metrica.
Static vs dynamic: i modelli imparano nuovi trick, le evaluation invecchiano.
Capability vs propensity: un modello può sapere fare una cosa pericolosa ma scegliere di non farlo. Misurare propensione è più difficile che misurare capacità.

L'AI Act richiede evaluation rigorose per modelli ad alto rischio. Sia gli sviluppatori che i deployer hanno responsabilità. Le voluntary commitments delle big tech (Casa Bianca 2023, AI Safety Summit Bletchley 2023, Seoul 2024) includono evaluation pre-rilascio condivise con governi.