38 Primer de interpretabilidad mecanicista

Dónde estamos. Abre la Parte VII —la pregunta de fondo del libro: ¿qué hace de verdad un transformer por dentro?—. La interpretabilidad mecanicista (MI) intenta ingeniería inversa de los algoritmos que la red aprendió: convertir pesos opacos en mecanismos comprensibles, con evidencia causal. Aquí están sus conceptos (flujo residual, circuitos QK/OV, superposición), sus métodos (logit lens, activation patching) y —fiel a este libro— sus límites honestos, que preparan el Cap. 38.

38.1 La idea en una frase

La interpretabilidad mecanicista trata de descompilar la red —recuperar de los pesos el “algoritmo” legible que ejecuta— y, sobre todo, de demostrarlo con intervenciones causales, no con correlaciones.

38.2 Conceptos clave y su papel en el transformer

Antes de entrar en detalle, definimos los términos de este capítulo y para qué sirve cada uno dentro de un transformer:

Interpretabilidad mecanicista (MI). Definición: ingeniería inversa de los circuitos internos de la red. En el transformer: convierte pesos opacos en mecanismos verificables —el opuesto de tratarlo como caja negra—.
Circuito. Definición: un subconjunto de componentes que, juntos, implementan un algoritmo concreto. En el transformer: la unidad que la MI busca aislar (p. ej. la cabeza de inducción).
Flujo residual (como canal). Definición: el “carril” compartido del que cada componente lee y escribe (Cap. 3). En el transformer: el medio por el que las cabezas y MLPs se comunican entre capas.
Circuito QK vs OV. Definición: QK decide dónde atender; OV, qué escribir. En el transformer: descompone cada cabeza en “a quién mira” y “qué aporta”.
Superposición. Definición: guardar más rasgos que dimensiones en direcciones casi ortogonales. En el transformer: causa la polisemanticidad (una neurona dispara por cosas dispares) → el gran obstáculo.
Autoencoder disperso (SAE). Definición: un diccionario sobrecompleto y disperso que descompone activaciones en rasgos monosemánticos. En el transformer: intenta deshacer la superposición y dar rasgos interpretables.
Logit lens. Definición: proyectar la activación intermedia por la matriz de salida para leer la “apuesta” del modelo en cada capa. En el transformer: muestra cómo se forma la predicción con la profundidad.
Activation patching (rastreo causal). Definición: trasplantar una activación entre una pasada “limpia” y otra “corrupta” y medir el efecto. En el transformer: aísla qué componente es causalmente responsable de un comportamiento.

Con esto en mano, abrimos la caja.

38.3 Qué es (y qué no es) la MI

La interpretabilidad mecanicista es ingeniería inversa: a partir de los pesos de una red entrenada, recuperar el algoritmo que ejecuta —como descompilar un binario para recuperar el código fuente legible—. Su sello distintivo frente a otras formas de “explicar”:

Vs. caja negra / conductual: esa solo mira entradas→salidas; la MI abre el modelo.
Vs. atribución/saliencia (mapas de atención, gradientes): son correlacionales y pueden engañar —es nuestro “atención ≠ explicación” de los Caps. 4 y 13—. La MI exige intervención causal, no correlación.

🧩 Analogía — descompilar un programa. Los pesos son el binario compilado (ilegible); el circuito que la MI recupera es el código fuente legible. Hacer MI es sentarse a descompilar ese binario hasta entender qué algoritmo implementa.

38.4 El marco fundacional: circuitos en el flujo residual

El texto canónico (Elhage et al. 2021) dio el vocabulario. Sus ideas, que enlazan con los Caps. 3 y 5:

El flujo residual es un canal de comunicación (Cap. 3): cada cabeza y cada MLP leen de subespacios del flujo y escriben en otros. No es solo “memoria”; es el bus por el que los componentes se pasan información.
Circuito QK vs OV: una cabeza de atención se descompone en dos cálculos casi independientes —el circuito QK decide dónde mira (el patrón de atención) y el circuito OV decide qué escribe en el flujo cuando mira ahí—.
Composición: las cabezas se encadenan entre capas (una escribe algo que otra, más arriba, lee). El ejemplo canónico es la cabeza de inducción (Cap. 5): necesita dos capas —una cabeza de token previo alimenta a la cabeza de inducción— y es el sustrato mecánico del in-context learning (Olsson et al. 2022).

🧩 Analogía — la pizarra compartida. El flujo residual es una pizarra (o un bus) que todos los componentes comparten: cada cabeza y cada MLP lee notas que otros dejaron y escribe las suyas. El circuito es la cadena de quién escribe qué para que, al final, salga el cálculo.

38.5 Superposición: por qué las neuronas no son interpretables

Si abrimos una neurona esperando “la neurona del perro”, nos llevamos un chasco: dispara por cosas dispares. La razón es la superposición (Elhage et al. 2022): la red representa más rasgos que dimensiones colocándolos en direcciones casi ortogonales que se solapan un poco. Eso produce polisemanticidad (una neurona = muchos conceptos), el gran obstáculo para interpretar a nivel de neurona.

🧩 Analogía — el cajón de 50 huecos. La superposición es meter 100 objetos etiquetados en un cajón de 50 huecos ladeándolos para que se solapen pero sigan distinguiéndose. Ganas capacidad, pero ya no hay “un objeto por hueco” → abrir un hueco (una neurona) te da una mezcla.

La solución más prometedora son los autoencoders dispersos (SAE) (Cunningham et al. 2023; Bricken et al. 2023): se entrena un diccionario sobrecompleto y disperso que descompone la activación en muchos rasgos monosemánticos —deshaciendo la superposición—. Escalado a un modelo de frontera (Templeton et al. 2024), esto extrajo millones de rasgos en Claude 3 Sonnet, incluido el célebre rasgo del “puente Golden Gate”: al forzarlo, el modelo se comporta como si fuera el puente (control causal de un rasgo).

⚠ Contestado — ¿encuentran los SAE los rasgos “verdaderos”?

Los SAE son prometedores pero debatidos. Dos problemas: el fraccionamiento de rasgos (un mismo concepto se parte en muchos latentes para abaratar la dispersión) y la absorción (un latente “monosemántico” deja de dispararse cuando otro más específico le “roba” el caso) (Chanin et al. 2024). Abierto: el error de reconstrucción y si los SAE recuperan los rasgos de verdad del modelo o solo una descomposición conveniente.

38.6 Los métodos: ver y, sobre todo, intervenir

Logit lens (nostalgebraist 2020): proyecta la activación del flujo residual en una capa intermedia a través de la matriz de salida (unembedding) para leer la “apuesta actual” del modelo en ese piso. Revela que la predicción se forma gradualmente con la profundidad. La tuned lens (Belrose et al. 2023) lo afina con una sonda lineal por capa (más fiable que la versión cruda).
Activation patching / rastreo causal: el método causal central. Ejecutas una pasada limpia y otra corrupta, trasplantas una activación de una a la otra y mides cuánto cambia la salida → localizas qué componente es causalmente responsable. Con esta técnica, ROME (Meng, Bau, et al. 2022) localizó el conocimiento factual en los MLP de capas intermedias (y luego lo editó; MEMIT (Meng, Sen Sharma, et al. 2022) lo escaló a miles de hechos). El ejemplo canónico de circuito completo es el de identificación de objeto indirecto (IOI) en GPT-2 (Wang et al. 2023): 26 cabezas en 7 clases, evaluadas por fidelidad/completitud/minimalidad.
Probing (sondeo): entrenar un clasificador lineal sobre las activaciones para ver si cierta información está presente. Su límite, importante: correlación ≠ uso —una sonda muestra que el dato es decodable, no que el modelo lo use—. Por eso la MI prefiere los métodos causales.

🧩 Analogía — el trasplante. El activation patching es como trasplantar un órgano entre dos pacientes para ver cuál carga con el síntoma: si al mover ese componente cambia el resultado, ese era el responsable. Es una prueba causal, no una corazonada.

38.7 Lo que la MI puede y no puede afirmar (honesto)

Aquí, fiel al libro, las salvedades —que preparan el Cap. 38—:

Es sobre todo de modelos pequeños / comportamientos estrechos. Escalar circuitos limpios a modelos de frontera no está resuelto.
Cherry-picking e incompletitud: los circuitos publicados suelen ser parciales; y acecha el efecto farola —estudiamos lo que las herramientas actuales iluminan, no necesariamente lo que importa—.
El propio activation patching tiene sutilezas: distintas métricas (diferencia de logits vs probabilidad vs KL) y formas de “corromper” pueden dar conclusiones distintas (Zhang y Nanda 2023); no hay un protocolo único acordado.
Los SAE puede que no recuperen los rasgos verdaderos (arriba).

En una frase honesta: la MI ofrece hipótesis mecanicistas con evidencia causal sobre comportamientos concretos, no una explicación completa del modelo.

38.8 Puente con nuestro trabajo (honesto)

Nuestro γ / atención-sobre-distancia y el re-ascenso del CKA del grokking (Cap. 24) son vecinos de la interpretabilidad: miden estructura interna (γ por cabeza, CKA inter-capa). Pero conviene la asimetría honesta: son medidas descriptivas/correlacionales de la estructura agregada, no circuitos mecánicos. La MI descompila un algoritmo concreto con intervención causal; nosotros medimos geometría/estadística global sin aislar un circuito. Son lentes complementarias —nivel-estructura vs nivel-algoritmo—, no lo mismo.

🧪 Pruébalo — tafagent

tafagent opera en el nivel estructura (γ por cabeza, régimen, sumideros), no en el nivel circuito (no hace activation patching ni SAEs). Es un diagnóstico de la geometría de la atención de un modelo —útil como primer cribado antes de la MI fina, pero no la sustituye: te dice cómo se reparte la atención, no qué algoritmo la genera—.

38.9 Resumen

MI = descompilar la red en circuitos, con intervención causal (no correlación) —frente a caja negra y a saliencia (“atención ≠ explicación”)—.
Marco (Elhage et al. 2021): flujo residual como canal (Cap. 3); QK (dónde mirar) vs OV (qué escribir); composición → la cabeza de inducción como circuito canónico (Cap. 5).
Superposición (Elhage et al. 2022): más rasgos que dimensiones → polisemanticidad; los SAE (Cunningham et al. 2023; Templeton et al. 2024) intentan deshacerla (rasgo “Golden Gate”). Contestado (fraccionamiento/absorción, (Chanin et al. 2024)).
Métodos: logit lens (la apuesta por capa) / tuned lens; activation patching (causal: ROME, IOI (Wang et al. 2023)); probing (presente ≠ usado).
Honesto: modelos pequeños, circuitos parciales, métricas de patching sin consenso (Zhang y Nanda 2023); hipótesis causales sobre conductas concretas, no el modelo entero.
Puente: nuestro γ/CKA = estructura agregada (descriptiva), no circuitos —lente complementaria a la MI—.

Siguiente (Capítulo 38): con la MI como vara de medir “qué es real”, llega el capítulo más nuestro: Verificado vs Folclore vs Numerología —los mitos del campo y nuestro audit de fórmulas, con recibos Lean y datos—.

38.10 Ejercicios

Causal vs correlacional. ¿Por qué la MI insiste en la intervención y desconfía de los mapas de atención como “explicación”?
QK vs OV. ¿Qué decide el circuito QK y qué el OV de una cabeza? ¿Por qué separar “dónde mira” de “qué escribe”?
Superposición. Explica con el cajón de 50 huecos por qué una neurona dispara por conceptos dispares. ¿Qué intentan los SAE?
Patching. Describe el activation patching y por qué es causal. ¿En qué se diferencia de una sonda lineal (probing)?
Honestidad. Cita dos razones por las que un “circuito” publicado puede no contar toda la historia del modelo.
Estructura vs circuito. ¿Por qué nuestro γ por cabeza no es lo mismo que un circuito mecánico?

Referencias

Belrose, Nora, Igor Ostrovsky, Lev McKinney, et al. 2023. Eliciting Latent Predictions from Transformers with the Tuned Lens. https://arxiv.org/abs/2303.08112.

Bricken, Trenton, Adly Templeton, et al. 2023. «Towards Monosemanticity: Decomposing Language Models with Dictionary Learning». En Transformer Circuits Thread (Anthropic). https://transformer-circuits.pub/2023/monosemantic-features/index.html.

Chanin, David et al. 2024. A is for Absorption: Studying Feature Splitting and Absorption in Sparse Autoencoders. https://arxiv.org/abs/2409.14507.

Cunningham, Hoagy, Aidan Ewart, Logan Riggs, Robert Huben, y Lee Sharkey. 2023. Sparse Autoencoders Find Highly Interpretable Features in Language Models. https://arxiv.org/abs/2309.08600.

Elhage, Nelson et al. 2021. «A Mathematical Framework for Transformer Circuits». Transformer Circuits Thread (Anthropic). https://transformer-circuits.pub/2021/framework/index.html.

Elhage, Nelson et al. 2022. «Toy Models of Superposition». Transformer Circuits Thread (Anthropic). https://arxiv.org/abs/2209.10652.

Meng, Kevin, David Bau, Alex Andonian, y Yonatan Belinkov. 2022. «Locating and Editing Factual Associations in GPT». NeurIPS. https://arxiv.org/abs/2202.05262.

Meng, Kevin, Arnab Sen Sharma, Alex Andonian, Yonatan Belinkov, y David Bau. 2022. Mass-Editing Memory in a Transformer. https://arxiv.org/abs/2210.07229.

nostalgebraist. 2020. Interpreting GPT: The Logit Lens. https://www.lesswrong.com/posts/AcKRB8wDpdaN6v6ru/interpreting-gpt-the-logit-lens.

Olsson, Catherine et al. 2022. «In-context Learning and Induction Heads». Transformer Circuits Thread (Anthropic). https://arxiv.org/abs/2209.11895.

Templeton, Adly et al. 2024. «Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet». En Transformer Circuits Thread (Anthropic). https://transformer-circuits.pub/2024/scaling-monosemanticity/index.html.

Wang, Kevin, Alexandre Variengien, Arthur Conmy, Buck Shlegeris, y Jacob Steinhardt. 2023. «Interpretability in the Wild: A Circuit for Indirect Object Identification in GPT-2 Small». ICLR. https://arxiv.org/abs/2211.00593.

Zhang, Fred, y Neel Nanda. 2023. Towards Best Practices of Activation Patching in Language Models: Metrics and Methods. https://arxiv.org/abs/2309.16042.