Interpretability

[interpretabìliti]

Capacità di capire come funziona internamente un modello IA: quali rappresentazioni costruisce, quali circuiti calcolano cosa. Più tecnica della explainability.

L'interpretability (interpretabilità) è la capacità di capire come un modello IA funziona internamente: quali rappresentazioni interne costruisce, come processa l'informazione, quali "circuiti" computazionali emergono.

Differenza con explainability: la explainability spiega singole decisioni a un utente finale, l'interpretability cerca di capire il modello in sé a livello di ricerca.

Approcci:

  • Intrinsica: usare modelli che sono naturalmente leggibili (alberi decisionali, regressioni). Costo: spesso meno accurati su problemi complessi.
  • Post-hoc: studiare modelli black-box dopo l'addestramento.
  • Probing: addestrare classificatori secondari per vedere cosa "sa" il modello in ogni layer.
  • Activation analysis: studiare quali neuroni si attivano per cosa.
  • Sparse dictionaries / SAE: tecnica recente per "scomporre" le attivazioni in features interpretabili.

Ricerca all'avanguardia:

  • Anthropic: pubblica ricerca importante su mechanistic interpretability di Claude.
  • OpenAI Superalignment: progetto (poi smantellato 2024) sull'interpretability di modelli di frontiera.
  • Google DeepMind: ricerca su circuiti emergenti.
  • Università: MIT, Berkeley, ETH Zurich.

Perché conta:

  • AI safety: capire se un modello sta "ragionando" correttamente o solo memorizzando.
  • Allineamento: rilevare se un modello ha obiettivi nascosti diversi da quelli dichiarati.
  • Debugging: trovare cause profonde di errori.
  • Compliance: in settori regolamentati può essere richiesto.

Stato dell'arte 2026: per LLM siamo ancora molto lontani da una vera interpretabilità completa. Sappiamo individuare circuiti specifici per task semplici, ma capire un modello da 400 miliardi di parametri "tutto" è oltre le capacità attuali. Campo di ricerca attivissimo.