17  El atlas γ: el decaimiento medido en 42 modelos

Dónde estamos. En el Cap. 15 aprendimos a medir (y a predecir) el exponente γ de un modelo. La pregunta natural: si podemos medirlo en uno, midámoslo en muchos. Eso es el atlas γ —γ medido en 42 modelos de cuatro familias de arquitectura (Marín 2026)— y es algo que ningún otro manual tiene: un mapa común donde situar cualquier transformer según cómo atiende a lo largo de la distancia. Este capítulo explica el mapa con calma, qué nos dice, y —con la misma honestidad de siempre— qué no podemos concluir de él.

17.1 La idea en una frase

Medido γ en 42 modelos distintos, emerge un mapa: la mayoría de los transformers entrenados miran lejos (γ<1), con una mediana cerca —pero por debajo— de la frontera γ=1.

17.2 Conceptos clave y su papel en el transformer

Antes de entrar en detalle, definimos los términos de este capítulo y para qué sirve cada uno dentro de un transformer:

  • Atlas γ. Definición: el exponente de decaimiento γ medido en 42 modelos de cuatro familias de arquitectura. En el transformer: convierte γ de propiedad de un modelo en un mapa común donde situar y comparar a todos.
  • γ como coordenada comparable. Definición: un único número que coloca modelos muy distintos (denso, GQA, MoE, SSM) en el mismo eje. En el transformer: permite comparar cómo atiende a lo largo de la distancia sin importar la arquitectura.
  • Fase A (γ<1) y Fase B (γ>1). Definición: cola pesada que mira lejos (Fase A) frente a atención que concentra cerca (Fase B). En el transformer: indica si el modelo aprovecha contexto amplio o no — clave para compresión de KV-cache (Cap. 20).
  • Frontera de Hagedorn (γ=1). Definición: la línea que separa ambas fases. En el transformer: los modelos se agolpan justo por debajo de ella (mediana ≈0,885), un patrón que no parece casual y se retoma en el Cap. 21.
  • Cross-arquitectura. Definición: que γ es el mismo tipo de medida para densas, GQA, MoE y SSM. En el transformer: es lo que hace único al atlas — pone a un Mamba y a un GPT en el mismo eje.
  • R² del ajuste. Definición: la bondad con que A(d)∝d^−γ describe la atención real de cada modelo (alto = buen ajuste). En el transformer: señala cuándo γ es un resumen fiable y cuándo es más grueso (R²~0,85).
  • γ crudo vs. control within-model. Definición: comparar el γ tal cual entre modelos mezcla factores (θ, datos, arquitectura); el experimento limpio varía θ dentro del mismo modelo. En el transformer: el atlas describe el paisaje pero no aísla causas por sí solo.

En resumen: el atlas es una foto reproducible del paisaje de γ, no una ley eterna ni una prueba causal.

17.3 Para qué sirve un atlas

Hasta ahora γ era una propiedad de un modelo. Pero medirlo en muchos lo convierte en una coordenada comparable: un único número que coloca a modelos tan distintos como un GPT denso, uno con GQA, un Mixture-of-Experts o incluso un modelo de espacio de estados (Mamba) en el mismo eje. Es como pasar de medir la temperatura de una ciudad a tener el mapa del tiempo de todo un país: lo interesante no es un punto, es el patrón que dibujan todos juntos.

17.4 El mapa

Figura 17.1: Distribución del exponente de decaimiento γ medido en 42 modelos (datos reales; promediado por modelo). La línea discontinua marca la frontera γ=1 (Hagedorn): a su izquierda, Fase A (γ<1, miran lejos); a su derecha, Fase B (γ>1, concentran). La inmensa mayoría cae en Fase A. Reproducible: figures/make_fig16_atlas.py sobre data/gamma_atlas.csv.

17.5 Qué nos dice el mapa (con calma)

Tres lecturas, y qué significa cada una:

1. Casi todos miran lejos (38 de 42 en Fase A, γ<1). Esto es revelador. Recuerda (Cap. 15) que γ<1 significa cola pesada: la atención cae despacio con la distancia, de modo que el modelo reparte peso también a tokens lejanos. Que la enorme mayoría de los modelos entrenados acaben ahí sugiere que aprovechar contexto amplio es la norma, no la excepción —los transformers, dejados a su aire, tienden a la mirada larga, no a la visión de túnel—.

2. La mediana (γ≈0,885) está cerca de la frontera, pero por debajo. Los modelos no se reparten al azar: se agolpan justo por debajo de γ=1. Es como si el entrenamiento los empujara hacia el borde del régimen de “mirar lejos” sin llegar a cruzarlo. Esa cercanía a la frontera (la “transición de Hagedorn” del Cap. 21) no es casualidad y la retomaremos.

3. Hay diversidad real (rango γ ≈ 0,15 → 1,34). No todos son iguales: hay modelos de cola muy pesada (γ≈0,15, mirada larguísima) y unos pocos en Fase B (γ>1) que concentran cerca. Ese rango es el que conecta con decisiones prácticas: cuánto contexto aprovecha de verdad un modelo, cuánto se puede comprimir su KV-cache (Cap. 20).

17.6 La pieza única: es cross-arquitectura

Lo que hace especial al atlas no es solo el número de modelos, sino que γ es el mismo tipo de medida para arquitecturas muy distintas —densas, GQA, MoE y SSM—. Pocos diagnósticos permiten poner a un Mamba y a un GPT en el mismo eje. γ sí.

Advertencia⚠ Honestidad — qué NO concluir del atlas

Tres cautelas, para no sobreinterpretar: 1. Comparar el γ crudo entre modelos muy distintos mezcla factores. Dos modelos de 7-8B pueden diferir en γ por su θ, sus datos y su arquitectura a la vez (la descomposición del Cap. 15). El experimento limpio —que sí controla todo— es variar θ dentro del mismo modelo (lo veremos con los sumideros, Cap. 17). El atlas describe; no aísla causas por sí solo. 2. La calidad del ajuste varía. La ley d^−γ ajusta muy bien en general (R²>0,95 en muchos), pero en algunos modelos el R² es más bajo (~0,85): ahí γ es un resumen más grueso. Lo indicamos modelo a modelo (la columna R2 del dataset). 3. Es una foto, no una ley universal. 42 modelos en un momento dado; un atlas se amplía y se corrige. Los datos están publicados para que cualquiera lo reproduzca y lo discuta.

17.7 De dónde salen los datos

El atlas se mide con un procedimiento reproducible (ajustar A(d)∝d^−γ sobre la atención real de cada modelo) y se publica como conjunto de datos abierto —para que no haya que creernos nada: se descarga, se reproduce, se critica—. (El detalle de cómo medir tu propio γ está en el cookbook de referencia, R4.)

Nota🧪 Pruébalo — tafagent

tafagent tiene un modo Phase diagram que sitúa un panel de modelos en el eje γ (Fase A vs Fase B), y al perfilar tu modelo te dice en qué punto del atlas cae. Es el atlas hecho interactivo: añade el tuyo y compáralo.

17.8 Resumen

  • El atlas γ mide el exponente de decaimiento en 42 modelos de 4 familias —una coordenada cross-arquitectura que nadie más tiene—.
  • Lectura: 38 de 42 en Fase A (γ<1, miran lejos) → aprovechar contexto amplio es la norma; mediana ≈0,885 (se agolpan justo por debajo de la frontera γ=1); rango 0,15–1,34 (diversidad real).
  • Único: γ pone densas, GQA, MoE y SSM en el mismo eje.
  • Honesto: el γ crudo cross-modelo mezcla factores (el control limpio es within-model, Cap. 17); el R² varía; es una foto reproducible, no una ley eterna.

Siguiente (Capítulo 17): una de esas “lecturas crudas” engaña —la concentración (sumideros)—. Veremos que es independiente de γ, con el experimento limpio que controla todo: el θ-rescale dentro del mismo modelo.

17.9 Ejercicios

  1. Leer el mapa. Si 38 de 42 modelos tienen γ<1, ¿qué tienden a hacer los transformers entrenados: mirar lejos o concentrarse cerca? ¿Por qué?
  2. La mediana. ¿Qué tiene de llamativo que los modelos se agolpen justo por debajo de γ=1 en lugar de repartirse por todo el rango?
  3. Honestidad. ¿Por qué comparar el γ de dos modelos distintos no basta para decir “este mira más lejos por su arquitectura”? ¿Qué experimento sí lo aislaría?
  4. Ajuste. Si un modelo tiene R²=0,85 en su ajuste de γ, ¿con cuánta confianza tomarías su γ frente a otro con R²=0,98?
Tip📄 Nuestro paper — datos y detalles

El atlas completo de γ y los datos por modelo en que se basa este capítulo están en abierto: Predicting How Transformers Attend (Zenodo).

Referencias

Marín, Carles. 2026. Predicting How Transformers Attend: Analytic Power-Law Theory, Phase Transitions, and Practical Compression Tools. https://zenodo.org/records/20314038.