Le system cards sono evoluzione delle model card: documentano non solo il modello, ma l'intero sistema in produzione, includendo come è deployato, quali guardrail ha sopra, come interagisce con utenti, quali mitigazioni sono in atto, quali rischi residui rimangono.
Concetto promosso principalmente da OpenAI e Anthropic dal 2023. La differenza è importante: un modello base (es. GPT-4) può essere lo stesso, ma usato in ChatGPT consumer, in Bing, in un'app aziendale via API, ha rischi diversi. La system card li distingue.
Esempi di system card pubblicate:
- OpenAI GPT-4 System Card (2023): primo esempio influente, descrive red teaming, rischi rilevati, mitigazioni.
- OpenAI GPT-4o System Card (2024): include valutazione capacità multimodali, rischi voice cloning.
- OpenAI o1 System Card (2024): preparedness framework, capacità persuasione, biorischio.
- Anthropic Claude 3.5/3.7/4 System Card: pubblicate in concomitanza al rilascio.
- DeepMind Gemini 1.5 Technical Report: equivalente di system card.
Cosa contengono in più rispetto alle model card:
- Risultati di red teaming dettagliati.
- Threat models considerati.
- Mitigazioni applicate (training-time, system prompt, filtri esterni).
- Performance su benchmark di sicurezza (StrongREJECT, HarmBench).
- Capability evaluations: persuasione, autonomia, capacità di replicarsi, capacità di programmare exploit.
- Rischi residui che restano accettati.
Per le frontier AI lab, le system card sono diventate uno strumento di accountability pubblico. Il limite è che le aziende stesse decidono cosa pubblicare, e le valutazioni interne sono inevitabilmente parziali. Audit indipendenti rimangono rari.
L'AI Act europeo richiede per modelli general-purpose con rischio sistemico documentazione equivalente a una system card, condivisa con l'EU AI Office.