L'explainability (spiegabilità) è la capacità di un sistema IA di fornire spiegazioni comprensibili a un umano sulle proprie decisioni. "Perché hai negato il mutuo?", "Perché hai scartato questo CV?", "Perché hai diagnosticato questo tumore?".
Per modelli semplici (regressione lineare, alberi decisionali) la spiegabilità è banale: il modello stesso è leggibile. Per modelli deep learning con miliardi di parametri, è uno dei problemi più tosti dell'IA.
Tecniche principali:
- SHAP (SHapley Additive exPlanations): assegna a ogni feature un valore di contributo alla predizione. Standard de facto.
- LIME: approssima localmente il modello complesso con uno semplice spiegabile.
- Attention maps: per modelli visivi, mostra dove il modello ha "guardato".
- Counterfactual explanations: "se questa feature avesse questo altro valore, la decisione sarebbe stata diversa".
- Feature importance: quanto ogni feature pesa globalmente.
Quadro normativo:
- GDPR art. 22: per decisioni automatizzate l'utente ha diritto a "informazioni significative sulla logica utilizzata".
- AI Act: sistemi ad alto rischio devono garantire trasparenza e interpretabilità per gli operatori.
- Settori specifici: in medicina, banche, assicurazioni la spiegabilità è spesso obbligatoria de facto.
Differenza con interpretability: terminologia variabile, ma in genere "interpretability" = capire come funziona il modello internamente, "explainability" = spiegare singole decisioni a un utente.
Limiti realistici: le spiegazioni post-hoc (SHAP, LIME) sono approssimazioni. Possono essere fuorvianti. Per applicazioni critiche meglio usare modelli intrinsecamente interpretabili (anche a costo di un po' di accuratezza) che modelli neri spiegati a posteriori.
Per gli LLM la spiegabilità è ancora peggio: chiedere a GPT-4 "perché hai detto questo" produce una spiegazione plausibile che spesso non corrisponde al vero processo interno (vedi mechanistic interpretability).