La model evaluation è l'insieme delle metodologie per misurare capacità, comportamenti e rischi di un modello IA. Va oltre i benchmark di accuratezza standard.
Tipi di valutazione:
- Capability evaluation: cosa il modello sa fare. MMLU per conoscenze, HumanEval per coding, GSM8K per matematica.
- Safety evaluation: rifiuta richieste dannose? Resiste a jailbreak? StrongREJECT, HarmBench.
- Alignment evaluation: si comporta come dovrebbe? Honest, Helpful, Harmless?
- Dangerous capability evaluation: ha capacità pericolose? Può aiutare con bioarmi (WMDP), con cyber attacchi, con manipolazione persuasiva?
- Bias evaluation: BOLD, BBQ, StereoSet, RealToxicityPrompts.
- Robustness evaluation: regge a input perturbati, adversarial?
- Calibration evaluation: la confidenza dichiarata corrisponde all'accuratezza reale?
Organizzazioni dedicate:
- METR: valuta autonomia di modelli di frontiera per OpenAI, Anthropic, governi.
- Apollo Research: specializzati su deception evaluation.
- UK AI Safety Institute (AISI): valutazioni governative pre-deployment dei modelli.
- US AI Safety Institute: equivalente USA.
- Center for AI Safety (CAIS): ricerca accademica/non profit.
Limiti delle evaluation attuali:
- Contamination: i modelli "vedono" i benchmark durante il training, performance gonfiata.
- Goodhart's law: quando una metrica diventa target, smette di essere buona metrica.
- Static vs dynamic: i modelli imparano nuovi trick, le evaluation invecchiano.
- Capability vs propensity: un modello può sapere fare una cosa pericolosa ma scegliere di non farlo. Misurare propensione è più difficile che misurare capacità.
L'AI Act richiede evaluation rigorose per modelli ad alto rischio. Sia gli sviluppatori che i deployer hanno responsabilità. Le voluntary commitments delle big tech (Casa Bianca 2023, AI Safety Summit Bletchley 2023, Seoul 2024) includono evaluation pre-rilascio condivise con governi.