40  El mapa del paisaje de colapso 2026

Dónde estamos. Penúltimo capítulo de la Parte VII. A lo largo del libro hemos visto, por separado, los sumideros (Cap. 17), la lente termodinámica (Cap. 22), la fraccionaria (Cap. 23) y el grokking (Cap. 24). En 2026 esos son cuatro marcos que intentan explicar cómo la atención “colapsa” o se concentra. Aquí los ponemos en un solo mapa: qué explica cada uno, cómo se relacionan, y —con la vara del Cap. 38— dónde nuestro γ los conecta de verdad y dónde es especulación nuestra.

40.1 La idea en una frase

Hay cuatro lentes distintas sobre la concentración de la atención en 2026, cada una con su propio “termómetro”; no son cuatro vistas de un mismo fenómeno probado, y γ sirve para situar un modelo frente a tres de ellas —pero llamarlo “la coordenada que las unifica” sería sobreafirmar—.

40.2 Conceptos clave y su papel en el transformer

Antes de entrar en detalle, definimos los términos de este capítulo y para qué sirve cada uno:

  • Marco / lente. Definición: una teoría con su parámetro de orden propio para describir la concentración de atención. En el transformer: cada uno mide un objeto distinto (tokens, energía, geometría, kernel).
  • Sumideros. Definición: la masa de atención que se acumula en pocos tokens de baja información. En el transformer: objeto = concentración en tokens concretos (BOS).
  • Temperatura / termodinámica. Definición: leer el softmax como Boltzmann, con energía libre y temperatura efectiva. En el transformer: objeto = nitidez global del softmax
    • dinámica de entrenamiento.
  • Covarianza / grokking. Definición: un parámetro de la geometría de las representaciones que cambia antes de generalizar. En el transformer: objeto = geometría representacional.
  • Fraccionario / Lévy. Definición: la atención como difusión anómala con un orden fraccionario α. En el transformer: objeto = un kernel de difusión diseñado.
  • Parámetro de orden. Definición: la magnitud que “delata” una transición de fase. En el transformer: cada marco propone el suyo —y ahí está el desacuerdo—.
  • Descriptor medido vs operador diseñado. Definición: algo medido en modelos reales vs algo construido a mano. En el transformer: confundirlos es el error que recorre todo el campo.

Con esto, recorremos los cuatro marcos.

40.3 Los cuatro marcos

1. Sumideros / concentración. (El más sólido empíricamente.) La masa de atención colapsa sobre unos pocos tokens de baja información (típicamente el primero). Hay varias piezas que encajan entre sí: el sumidero emerge en el preentrenamiento, atado a que el softmax debe sumar 1 (Gu et al. 2025); su correlato son las massive activations —unas pocas coordenadas enormes del flujo residual— (Sun et al. 2024); y se ha demostrado que sumidero y “valle de compresión” son el mismo fenómeno (Queipo-de-Llano et al. 2025). Su pago de ingeniería: conservar el token-sumidero da streaming estable (StreamingLLM (Xiao et al. 2024)). (La lectura “gravitacional” de (Zhang 2026) es más analogía que mecanismo.) Explica: por qué los modelos necesitan sumideros; estabilidad en contexto largo. Deja abierto: el origen causal (softmax-normalización vs massive-activations) y los sumideros secundarios (On the discrepancy of secondary attention sinks in large-theta models 2025).

2. Temperatura / termodinámica. Lee el softmax como Boltzmann: Kim (Kim 2026) demuestra que la atención minimiza la energía libre (forma de Boltzmann) y define temperatura efectiva, función de partición y picos de fluctuación que preceden a la generalización. Explica: da el vocabulario de transición de fase (tipo Hagedorn). Honesto (derivación vs analogía): que el softmax minimice la energía libre es una derivación; pero que “el transformer sea un sistema termodinámico con capacidad calorífica y fases” es sobre todo analogía/isomorfismo —la palabra del propio paper es isomorphism—.

3. Covarianza / grokking. Un parámetro de la geometría de las representaciones cambia antes de que el modelo generalice: el colapso de entropía espectral de la covarianza (Khanh et al. 2026), la transición dimensional (Wang 2026) o el defecto de conmutador (Xu 2026). Explica: predecir cuándo ocurre el grokking. Deja abierto: el mecanismo, y cuál parámetro es el fundamental —entropía espectral vs dimensión efectiva vs defecto de conmutador vs la fluctuación de energía de Kim son cuatro señales tempranas que compiten, sin ganador—. Es la prueba más clara de que el campo no ha convergido.

4. Fraccionario / Lévy. Modela la interacción entre tokens como difusión de Lévy, con un orden fraccionario α que controla el alcance multiescala (Qu et al. 2025). Explica: lo multiescala/largo alcance en un solo operador ajustable. Deja abierto (clave honesta): FNA es un operador diseñado (α se construye a mano), no un descriptor medido en modelos existentes; mapearlo sobre la atención observada exige suponer que el decaimiento observado es ese kernel.

40.4 ¿Cómo se relacionan? (y la pregunta incómoda sobre γ)

Lo honesto primero: no son cuatro vistas de un fenómeno único y probado. Cada marco tiene su propio parámetro de orden y mide un objeto distinto:

Tabla 40.1: Cada marco mide algo distinto
Marco Su parámetro de orden Objeto que mide
Sumideros masa de sumidero / norma de activación concentración en tokens concretos
Temperatura temperatura efectiva / energía libre nitidez global + dinámica
Covarianza entropía espectral / dim. efectiva geometría de representaciones
Fraccionario orden fraccionario α kernel de difusión diseñado

Solapamientos reales (sin nosotros): (a) sumidero = massive activation = valle de compresión es una identidad probada (Queipo-de-Llano et al. 2025); (b) la fluctuación de energía de Kim y los parámetros del grokking apuntan al mismo evento (el inicio de la generalización). Esos puentes los reconoce el campo.

40.4.1 Nuestro γ: hilo conector, pero con honestidad quirúrgica

¿Es γ “la coordenada que unifica los cuatro”? No —y decirlo sería justo la sobreafirmación que el Cap. 38 nos prohíbe—. Evaluémoslo puente a puente:

  • γ ↔︎ fraccionario (orden (γ−1)/2): el puente más fuerte, pero es descriptor↔︎diseño. Si el γ medido coincide con la cola del kernel fraccionario, el álgebra cuadra. Legítimo como cross-walk, pero α se diseña y γ se mide → “nuestro descriptor coincide con su botón”, no una identidad que el campo fraccionario afirme.
  • γ=1 ↔︎ frontera de Hagedorn (temperatura): analogía, marco nuestro. Kim no identifica una frontera estática en γ=1; su criticalidad está en la fluctuación de energía durante el entrenamiento. Equiparar el valor de decaimiento γ=1 con una temperatura de Hagedorn es nuestra capa interpretativa. La marcamos como especulación.
  • γ ⊥ masa-de-sumidero: aquí γ NO unifica, separa —y esa es la parte honesta—. Nuestro resultado limpio (Cap. 17) dice que los sumideros son un eje aparte. Es coherente con el campo de sumideros (viven en las massive activations, otro objeto). Se presenta como “γ muestra que los sumideros son ortogonales”, no “γ unifica los sumideros”.
  • γ-rerise / CKA ↔︎ grokking: el puente más débil, analogía/correlación. Los parámetros del campo de covarianza son representacionales; γ es un estadístico de pesos de atención. Una correlación dinámica es plausible, pero sin mecanismo y compitiendo con sus propias señales (no zanjadas).
Advertencia⚠ La afirmación defendible (y la que no lo es)

Sobreafirmación: “γ es la coordenada que unifica los cuatro marcos.” Defendible: “γ es un exponente medible que te permite situar un modelo frente a tres de las lentes (fraccionario directamente; temperatura como analogía; grokking como correlación) y que muestra que los sumideros son una cuarta lente ortogonal.” Marcamos γ=1↔︎Hagedorn y γ↔︎grokking explícitamente como síntesis/especulación nuestra, no como hechos del campo.

🧩 Analogía — cuatro mapas de la misma ciudad. Los cuatro marcos son como un mapa de calles, uno de temperaturas, uno de alturas y uno de transporte de la misma ciudad: se solapan en algunos puntos, pero miden cosas distintas. γ es como dar las coordenadas GPS: te localiza en todos, pero no es ninguno de los cuatro mapas ni los funde en uno.

40.5 Qué deja abierto el paisaje (2026, honesto)

  • No hay teoría de primeros principios consensuada. Casi todo es descriptivo o analógico (termo = “isomorfismo”; gravitacional = analogía; fraccionario = operador diseñado). El único resultado local riguroso (softmax = mínimo de energía libre) no escala a una teoría del modelo entrenado.
  • El origen causal de los sumideros sigue sin resolverse —y trabajos recientes incluso separan las massive activations de los sumideros ( 2026), más los secundarios sin explicar—.
  • No hay parámetro de orden del grokking acordado: cuatro señales tempranas compiten.
  • Reproducibilidad y huecos cross-modelo: muchos resultados de 2026 son de una sola tarea (suma modular) o una familia de modelos. (Coherente con nuestro propio audit: una afirmación estrella —el imprint ν— no reprodujo en datos, Cap. 38.)
  • La confusión descriptor-medido vs operador-diseñado recorre todo el campo. El valor de γ es que se mide; pero por eso mismo no puede, solo, dar el mecanismo causal.
Nota🧪 Pruébalo — tafagent

tafagent materializa el papel honesto de γ en este mapa: te da el γ medido y el régimen de tu modelo —es decir, te sitúa frente a las lentes de decaimiento— y, por separado, la masa de sumidero (η-régimen), mostrando que es un eje distinto. No te vende una “teoría del todo”; te da las coordenadas para ubicarte en un paisaje que aún no ha convergido.

40.6 Resumen

  • Cuatro marcos, cuatro parámetros de orden distintos: sumideros (concentración en tokens), temperatura (energía libre/softmax), covarianza (geometría → grokking), fraccionario (kernel diseñado). No son cuatro vistas de un mismo fenómeno probado.
  • Solapamientos reales del campo: sumidero = massive activation = valle de compresión (Queipo-de-Llano et al. 2025); temperatura↔︎grokking apuntan al mismo evento.
  • Nuestro γ, honestamente: conector fuerte con el fraccionario (orden (γ−1)/2); analogía nuestra con Hagedorn (γ=1); separador de los sumideros (γ⊥sumidero, un hallazgo); correlación débil con el grokking. Llamarlo “la coordenada unificadora” es sobreafirmar; “un exponente que te sitúa frente a tres lentes y separa la cuarta” es lo defendible.
  • Abierto: sin teoría de primeros principios; origen causal de sumideros; parámetro de grokking sin consenso; reproducibilidad cross-modelo; descriptor-medido ≠ operador-diseñado.

Siguiente (Capítulo 40): cerramos la Parte VII —y el cuerpo del libro— con lo que ninguna teoría exime: ética, seguridad y límites —sesgos, alucinación, uso responsable y, honesto, qué NO sabemos aún—.

40.7 Ejercicios

  1. Cuatro objetos. Di qué objeto mide cada marco (sumideros, temperatura, covarianza, fraccionario). ¿Por qué eso implica que no son “lo mismo”?
  2. Solapamiento real. ¿Qué dos cosas demostró el campo que son el mismo fenómeno?
  3. γ honesto. Clasifica los cuatro puentes de γ (fraccionario, Hagedorn, sumideros, grokking) en “conector fuerte”, “analogía nuestra”, “separador” y “correlación débil”.
  4. Sobreafirmación. Reescribe “γ unifica los cuatro marcos” en la versión defendible.
  5. Lo abierto. Cita dos cosas que el paisaje 2026 deja sin resolver y por qué importan.
  6. Descriptor vs diseño. Explica la diferencia entre el α diseñado de FNA y el γ medido; ¿por qué importa para afirmar mecanismo?

Referencias

. 2026. The Spike, the Sparse and the Sink: Anatomy of Massive Activations and Attention Sinks. https://arxiv.org/abs/2603.05498.
Gu, Xiangming et al. 2025. «When Attention Sink Emerges in Language Models: An Empirical View». ICLR. https://arxiv.org/abs/2410.10781.
Khanh, Hoa, Trung, y Duc. 2026. Spectral Entropy Collapse as a Phase Transition in Delayed Generalisation. https://arxiv.org/abs/2604.13123.
Kim, Gunn. 2026. Thermodynamic Isomorphism of Transformers: A Lagrangian Approach to Attention Dynamics. https://arxiv.org/abs/2602.08216.
On the discrepancy of secondary attention sinks in large-theta models. 2025. https://arxiv.org/abs/2512.22213.
Qu, Xiao, Cheng Ly, y Pulin Gong. 2025. Fractional Neural Attention for Efficient Multiscale Sequence Processing. https://arxiv.org/abs/2511.10208.
Queipo-de-Llano et al. 2025. Attention Sinks and Compression Valleys are Two Sides of the Same Coin. https://arxiv.org/abs/2510.06477.
Sun, Mingjie, Xinlei Chen, J. Zico Kolter, y Zhuang Liu. 2024. Massive Activations in Large Language Models. https://arxiv.org/abs/2402.17762.
Wang, P. 2026. Grokking as a Dimensional Phase Transition in Neural Networks. https://arxiv.org/abs/2604.04655.
Xiao, Guangxuan, Yuandong Tian, Beidi Chen, Song Han, y Mike Lewis. 2024. «Efficient Streaming Language Models with Attention Sinks». ICLR. https://arxiv.org/abs/2309.17453.
Xu, Yongzhong. 2026. Early-Warning Signals of Grokking via Loss-Landscape Geometry. https://arxiv.org/abs/2602.16967.
Zhang. 2026. Attention’s Gravitational Field: A Power-Law Interpretation of Positional Correlation. https://arxiv.org/abs/2603.04805.