Explainability — Cosa significa, esempi, come si usa

L'explainability (spiegabilità) è la capacità di un sistema IA di fornire spiegazioni comprensibili a un umano sulle proprie decisioni. "Perché hai negato il mutuo?", "Perché hai scartato questo CV?", "Perché hai diagnosticato questo tumore?".

Per modelli semplici (regressione lineare, alberi decisionali) la spiegabilità è banale: il modello stesso è leggibile. Per modelli deep learning con miliardi di parametri, è uno dei problemi più tosti dell'IA.

Tecniche principali:

SHAP (SHapley Additive exPlanations): assegna a ogni feature un valore di contributo alla predizione. Standard de facto.
LIME: approssima localmente il modello complesso con uno semplice spiegabile.
Attention maps: per modelli visivi, mostra dove il modello ha "guardato".
Counterfactual explanations: "se questa feature avesse questo altro valore, la decisione sarebbe stata diversa".
Feature importance: quanto ogni feature pesa globalmente.

Quadro normativo:

GDPR art. 22: per decisioni automatizzate l'utente ha diritto a "informazioni significative sulla logica utilizzata".
AI Act: sistemi ad alto rischio devono garantire trasparenza e interpretabilità per gli operatori.
Settori specifici: in medicina, banche, assicurazioni la spiegabilità è spesso obbligatoria de facto.

Differenza con interpretability: terminologia variabile, ma in genere "interpretability" = capire come funziona il modello internamente, "explainability" = spiegare singole decisioni a un utente.

Limiti realistici: le spiegazioni post-hoc (SHAP, LIME) sono approssimazioni. Possono essere fuorvianti. Per applicazioni critiche meglio usare modelli intrinsecamente interpretabili (anche a costo di un po' di accuratezza) che modelli neri spiegati a posteriori.

Per gli LLM la spiegabilità è ancora peggio: chiedere a GPT-4 "perché hai detto questo" produce una spiegazione plausibile che spesso non corrisponde al vero processo interno (vedi mechanistic interpretability).