Model Evaluation

[model evaluèshion]

Insieme di tecniche per misurare capacità, limiti e rischi di un modello IA. Oltre i benchmark standard: capability evaluation, dangerous capability evaluation, alignment evaluation.

La model evaluation è l'insieme delle metodologie per misurare capacità, comportamenti e rischi di un modello IA. Va oltre i benchmark di accuratezza standard.

Tipi di valutazione:

  • Capability evaluation: cosa il modello sa fare. MMLU per conoscenze, HumanEval per coding, GSM8K per matematica.
  • Safety evaluation: rifiuta richieste dannose? Resiste a jailbreak? StrongREJECT, HarmBench.
  • Alignment evaluation: si comporta come dovrebbe? Honest, Helpful, Harmless?
  • Dangerous capability evaluation: ha capacità pericolose? Può aiutare con bioarmi (WMDP), con cyber attacchi, con manipolazione persuasiva?
  • Bias evaluation: BOLD, BBQ, StereoSet, RealToxicityPrompts.
  • Robustness evaluation: regge a input perturbati, adversarial?
  • Calibration evaluation: la confidenza dichiarata corrisponde all'accuratezza reale?

Organizzazioni dedicate:

  • METR: valuta autonomia di modelli di frontiera per OpenAI, Anthropic, governi.
  • Apollo Research: specializzati su deception evaluation.
  • UK AI Safety Institute (AISI): valutazioni governative pre-deployment dei modelli.
  • US AI Safety Institute: equivalente USA.
  • Center for AI Safety (CAIS): ricerca accademica/non profit.

Limiti delle evaluation attuali:

  • Contamination: i modelli "vedono" i benchmark durante il training, performance gonfiata.
  • Goodhart's law: quando una metrica diventa target, smette di essere buona metrica.
  • Static vs dynamic: i modelli imparano nuovi trick, le evaluation invecchiano.
  • Capability vs propensity: un modello può sapere fare una cosa pericolosa ma scegliere di non farlo. Misurare propensione è più difficile che misurare capacità.

L'AI Act richiede evaluation rigorose per modelli ad alto rischio. Sia gli sviluppatori che i deployer hanno responsabilità. Le voluntary commitments delle big tech (Casa Bianca 2023, AI Safety Summit Bletchley 2023, Seoul 2024) includono evaluation pre-rilascio condivise con governi.