System Cards

[sìstem cards]

Documentazione di un sistema IA in produzione, più ampia di una model card: include il contesto di deployment, le mitigazioni applicate, i rischi residui.

Le system cards sono evoluzione delle model card: documentano non solo il modello, ma l'intero sistema in produzione, includendo come è deployato, quali guardrail ha sopra, come interagisce con utenti, quali mitigazioni sono in atto, quali rischi residui rimangono.

Concetto promosso principalmente da OpenAI e Anthropic dal 2023. La differenza è importante: un modello base (es. GPT-4) può essere lo stesso, ma usato in ChatGPT consumer, in Bing, in un'app aziendale via API, ha rischi diversi. La system card li distingue.

Esempi di system card pubblicate:

  • OpenAI GPT-4 System Card (2023): primo esempio influente, descrive red teaming, rischi rilevati, mitigazioni.
  • OpenAI GPT-4o System Card (2024): include valutazione capacità multimodali, rischi voice cloning.
  • OpenAI o1 System Card (2024): preparedness framework, capacità persuasione, biorischio.
  • Anthropic Claude 3.5/3.7/4 System Card: pubblicate in concomitanza al rilascio.
  • DeepMind Gemini 1.5 Technical Report: equivalente di system card.

Cosa contengono in più rispetto alle model card:

  • Risultati di red teaming dettagliati.
  • Threat models considerati.
  • Mitigazioni applicate (training-time, system prompt, filtri esterni).
  • Performance su benchmark di sicurezza (StrongREJECT, HarmBench).
  • Capability evaluations: persuasione, autonomia, capacità di replicarsi, capacità di programmare exploit.
  • Rischi residui che restano accettati.

Per le frontier AI lab, le system card sono diventate uno strumento di accountability pubblico. Il limite è che le aziende stesse decidono cosa pubblicare, e le valutazioni interne sono inevitabilmente parziali. Audit indipendenti rimangono rari.

L'AI Act europeo richiede per modelli general-purpose con rischio sistemico documentazione equivalente a una system card, condivisa con l'EU AI Office.