L'interpretability (interpretabilità) è la capacità di capire come un modello IA funziona internamente: quali rappresentazioni interne costruisce, come processa l'informazione, quali "circuiti" computazionali emergono.
Differenza con explainability: la explainability spiega singole decisioni a un utente finale, l'interpretability cerca di capire il modello in sé a livello di ricerca.
Approcci:
- Intrinsica: usare modelli che sono naturalmente leggibili (alberi decisionali, regressioni). Costo: spesso meno accurati su problemi complessi.
- Post-hoc: studiare modelli black-box dopo l'addestramento.
- Probing: addestrare classificatori secondari per vedere cosa "sa" il modello in ogni layer.
- Activation analysis: studiare quali neuroni si attivano per cosa.
- Sparse dictionaries / SAE: tecnica recente per "scomporre" le attivazioni in features interpretabili.
Ricerca all'avanguardia:
- Anthropic: pubblica ricerca importante su mechanistic interpretability di Claude.
- OpenAI Superalignment: progetto (poi smantellato 2024) sull'interpretability di modelli di frontiera.
- Google DeepMind: ricerca su circuiti emergenti.
- Università: MIT, Berkeley, ETH Zurich.
Perché conta:
- AI safety: capire se un modello sta "ragionando" correttamente o solo memorizzando.
- Allineamento: rilevare se un modello ha obiettivi nascosti diversi da quelli dichiarati.
- Debugging: trovare cause profonde di errori.
- Compliance: in settori regolamentati può essere richiesto.
Stato dell'arte 2026: per LLM siamo ancora molto lontani da una vera interpretabilità completa. Sappiamo individuare circuiti specifici per task semplici, ma capire un modello da 400 miliardi di parametri "tutto" è oltre le capacità attuali. Campo di ricerca attivissimo.