Mechanistic Interpretability: cos'è e significato nell'IA

La mechanistic interpretability (spesso abbreviata mech interp) è una branca dell'interpretabilità che tratta i modelli neurali come se fossero programmi sconosciuti da decompilare: studia neuroni, attivazioni, attention head, cercando di scoprire i "circuiti" computazionali emergenti.

Metafora: come fare reverse engineering su un chip senza schemi. Misuri segnali, isoli componenti, ricostruisci la logica.

Ricerca pionieristica:

Chris Olah (Distill, poi Anthropic): visualizzazioni di neuroni in reti convolutive.
Anthropic dal 2021: serie di paper su circuit discovery, induction heads, monosemanticity.
Paper "Toy Models of Superposition" (2022): spiega come modelli piccoli rappresentano più features di quanti neuroni hanno.
"Scaling Monosemanticity" (Anthropic 2024): identificate milioni di features interpretabili in Claude 3 Sonnet.

Risultati interessanti scoperti:

Induction heads: circuiti che imparano pattern in-context durante l'inferenza.
Feature monosemantic: singole "direzioni" nello spazio attivazioni che corrispondono a concetti specifici (es. "Golden Gate Bridge", "scimmie", "errori di sintassi Python").
Refusal circuits: identificati i meccanismi con cui un modello decide di rifiutare una richiesta.
Steering vectors: si può "spingere" il modello manipolando direttamente le attivazioni di certe features.

Esperimento famoso: "Golden Gate Claude" (Anthropic, maggio 2024). Amplificando la feature corrispondente al Golden Gate Bridge, Claude diventava ossessionato dal ponte, lo menzionava in ogni risposta, si identificava con esso. Dimostrazione che la manipolazione mirata delle features funziona.

Importanza per AI safety:

Capire se un modello ha rappresentazioni di "ingannare" o "manipolare".
Rilevare deceptive alignment prima del deploy.
Verificare che un modello "allineato" lo sia davvero, non solo in superficie.

Limite: scala. Tecniche attuali funzionano su modelli relativamente piccoli o features specifiche. Per modelli di frontiera siamo lontani da una comprensione completa. Ma il campo avanza veloce.

Vedi anche