Interpretability — Cosa significa, esempi, come si usa

L'interpretability (interpretabilità) è la capacità di capire come un modello IA funziona internamente: quali rappresentazioni interne costruisce, come processa l'informazione, quali "circuiti" computazionali emergono.

Differenza con explainability: la explainability spiega singole decisioni a un utente finale, l'interpretability cerca di capire il modello in sé a livello di ricerca.

Approcci:

Intrinsica: usare modelli che sono naturalmente leggibili (alberi decisionali, regressioni). Costo: spesso meno accurati su problemi complessi.
Post-hoc: studiare modelli black-box dopo l'addestramento.
Probing: addestrare classificatori secondari per vedere cosa "sa" il modello in ogni layer.
Activation analysis: studiare quali neuroni si attivano per cosa.
Sparse dictionaries / SAE: tecnica recente per "scomporre" le attivazioni in features interpretabili.

Ricerca all'avanguardia:

Anthropic: pubblica ricerca importante su mechanistic interpretability di Claude.
OpenAI Superalignment: progetto (poi smantellato 2024) sull'interpretability di modelli di frontiera.
Google DeepMind: ricerca su circuiti emergenti.
Università: MIT, Berkeley, ETH Zurich.

Perché conta:

AI safety: capire se un modello sta "ragionando" correttamente o solo memorizzando.
Allineamento: rilevare se un modello ha obiettivi nascosti diversi da quelli dichiarati.
Debugging: trovare cause profonde di errori.
Compliance: in settori regolamentati può essere richiesto.

Stato dell'arte 2026: per LLM siamo ancora molto lontani da una vera interpretabilità completa. Sappiamo individuare circuiti specifici per task semplici, ma capire un modello da 400 miliardi di parametri "tutto" è oltre le capacità attuali. Campo di ricerca attivissimo.