23  El diccionario termodinámico

Dónde estamos. Seguimos en la lente física (Parte III). Si γ=1 era la frontera (Cap. 21), aquí está el diccionario que traduce magnitudes de atención a termodinámica —temperatura, capacidad calorífica, información de Fisher—. Y, a diferencia del capítulo anterior, aquí hay una pieza que sí está demostrada formalmente (en Lean): la identidad Fisher = C_V. También contamos, sin maquillaje, un error nuestro que corregimos y volvimos a demostrar.

23.1 La idea en una frase

La distribución de atención tiene un “diccionario” termodinámico (temperatura ↔︎ 1/γ, fluctuaciones ↔︎ capacidad calorífica), y una de sus identidades —Fisher = C_V— está probada en Lean; otra —el coeficiente en γ=1— la tuvimos mal y la corregimos.

23.2 Conceptos clave y su papel en el transformer

Antes de entrar en detalle, definimos los términos de este capítulo y para qué sirve cada uno dentro de un transformer:

  • Diccionario termodinámico. Definición: la tabla de correspondencias que traduce magnitudes de la distribución de atención a magnitudes térmicas. En el transformer: da intuición física sobre la atención —pero es una lente, no física literal—.
  • Temperatura efectiva T. Definición: el análogo térmico del inverso del exponente, T=1/γ. En el transformer: mide cuán “caliente” (dispersa) o “fría” (concentrada) es la distribución de atención.
  • Capacidad calorífica C_V. Definición: cuánta energía cuesta subir la temperatura; equivale al tamaño de las fluctuaciones de energía (Var(E)/T²). En el transformer: mide la sensibilidad de la distribución de atención a un cambio de la palanca γ.
  • Información de Fisher. Definición: cuán bruscamente cambia una distribución al mover un parámetro —mucha Fisher = parámetro fácil de “clavar” desde los datos—. En el transformer: cuantifica cuánto delatan los datos el valor de γ.
  • Identidad Fisher = C_V. Definición: el resultado de que sensibilidad estadística y fluctuación térmica son la misma cosa (salvo un factor γ²). En el transformer: es la pieza que sí está demostrada formalmente en Lean para nuestra distribución de distancia.
  • Entropía S y área-ley. Definición: la entropía de la distribución de atención, que crece logarítmicamente con la longitud (S_γ ~ log N). En el transformer: describe cómo se reparte la incertidumbre de la atención a medida que crece el contexto.
  • Verificación en Lean. Definición: una prueba en el asistente de demostración Lean (Mathlib) de que el álgebra de una identidad es correcta. En el transformer: es un “recibo” de consistencia —prueba que las fórmulas cuadran, no que describan causalmente al modelo—.
  • Erratum. Definición: un error publicado que se marca, corrige y vuelve a demostrar. En el transformer: aquí, el coeficiente de C_V en γ=1 que tuvimos mal por un factor 3 y rectificamos —la honestidad se demuestra, no se proclama—.

La idea de fondo: pasar de la analogía a las identidades exactas, separando lo que solo es metáfora de lo que está demostrado.

23.3 El diccionario (analogía etiquetada)

Como el softmax es Boltzmann (Cap. 4, 21), cada magnitud estadística de la distribución de atención tiene un análogo térmico:

Tabla 23.1: El diccionario atención ↔︎ termodinámica
Atención Termodinámica
1/γ temperatura efectiva T
−log A(d) energía del estado a distancia d
Z = Li_γ(e^−λ) función de partición
entropía de la atención entropía S
sensibilidad de la distribución capacidad calorífica C_V

Insistimos (Cap. 21): es una lente. Lo valioso es que algunas de estas correspondencias no son solo metáfora, sino identidades exactas demostrables. Veamos las dos más importantes.

23.4 Fisher = C_V (esto SÍ está probado, en Lean)

Dos conceptos, en cristiano:

  • Información de Fisher: mide cuán bruscamente cambia una distribución al mover un parámetro. Mucha Fisher = el parámetro es fácil de “clavar” a partir de los datos.
  • Capacidad calorífica C_V: cuánta energía cuesta subir la temperatura; equivale al tamaño de las fluctuaciones de energía (Var(E)/T²).

La identidad Fisher = C_V (salvo un factor γ²) dice algo profundo y a la vez intuitivo: la sensibilidad estadística de la distribución y su fluctuación térmica son la misma cosa. Es un resultado clásico de mecánica estadística (la métrica de Fisher es la segunda derivada de la energía libre), y para nuestra distribución de distancia lo hemos demostrado formalmente:

Tip📐 Verificado en Lean

La identidad Fisher = C_V/γ² (residual cero) está probada en el asistente de demostración Lean (Mathlib), no solo comprobada numéricamente. (El factor 1/γ² no es misterioso: aparece al cambiar de la temperatura T=1/γ a la variable γ —es la regla de la cadena—.) Es un recibo: el álgebra es correcta más allá de toda duda. (Salvedad honesta: Lean prueba la consistencia algebraica de la identidad —que las fórmulas cuadran—, no que describa causalmente* a los transformers. Una cosa es “el álgebra es correcta”; otra, “esto es lo que hace el modelo”.)*

23.5 El área-ley: la entropía crece como log N

Otra correspondencia con apoyo empírico: la entropía de la distribución de atención crece logarítmicamente con la longitud, S_γ ~ log N (medido en 56 modelos). En física, las “leyes de área” relacionan entropía con la frontera de una región; aquí, la forma log N es consistente y citable.

23.6 Nuestro propio erratum (y por qué lo contamos)

Aquí va el escaparate de honestidad del capítulo. En el Paper I (Marín 2026) (§5.2) afirmábamos que la capacidad calorífica en el punto γ=1 era:

\[ C_V(\gamma=1, N) \;=\; \frac{(\log N)^2}{4} \quad \textbf{[INCORRECTO]} \]

(donde N es la longitud del contexto; el resultado dice que C_V crece como (log N)².)

Era un error de un factor 3. El valor correcto, al que llegan dos derivaciones independientes (y que verificamos en Lean), es:

\[ C_V(\gamma=1, N) \;\to\; \frac{(\log N)^2}{12} \quad \textbf{[correcto]} \]

Precaución✗ → ✓ Por qué publicamos nuestro error

No escondemos esto: lo marcamos como erratum, lo corregimos y lo demostramos. Es exactamente la postura del libro —la honestidad se demuestra (con un recibo Lean), no se proclama—. Un manual que solo cuenta sus aciertos no es de fiar; uno que enseña dónde se equivocó y cómo lo arregló, sí. Que el error estuviera en nuestro propio paper lo hace más valioso de contar, no menos.

23.7 Resumen

  • La atención tiene un diccionario termodinámico (T=1/γ, Z, C_V, S) —una lente, no física literal—.
  • Fisher = C_V/γ² está probada en Lean (📐): sensibilidad estadística = fluctuación térmica. (Lean prueba el álgebra, no la causalidad sobre transformers.)
  • Área-ley: la entropía crece como log N (56 modelos).
  • Erratum propio (honesto): C_V(γ=1) era (logN)²/4 → es (logN)²/12 (factor 3), corregido y verificado en Lean. Lo contamos porque la honestidad se demuestra.

Siguiente (Capítulo 23): otra lente sobre el mismo fenómeno —la atención como transporte fraccionario (difusión de Lévy), con el orden de integración (γ−1)/2—.

23.8 Ejercicios

  1. Fisher y C_V. Explica en una frase qué mide cada uno y por qué tiene sentido que sean “la misma cosa”.
  2. El recibo Lean. ¿Qué demuestra exactamente una prueba en Lean de Fisher=C_V, y qué no demuestra?
  3. El erratum. El valor pasó de (logN)²/4 a (logN)²/12. ¿De qué factor era el error?
  4. Honestidad. ¿Por qué contar un error propio hace al manual más fiable, no menos?
Tip📄 Nuestro paper — datos y detalles

La identidad Fisher = C_V, el erratum de la corrección y los enlaces a las pruebas Lean están en abierto: Predicting How Transformers Attend (Zenodo).

Referencias

Marín, Carles. 2026. Predicting How Transformers Attend: Analytic Power-Law Theory, Phase Transitions, and Practical Compression Tools. https://zenodo.org/records/20314038.