42 R1 · Formulario maestro

Qué es. La tabla de consulta de todas las fórmulas importantes del libro, cada una con qué hace, dónde se explica a fondo, y —lo que nos distingue— su recibo: si está probada en Lean, respaldada por datos, derivada, es una analogía etiquetada o fue corregida (erratum). Aquí no hay narrativa: es para buscar y comprobar.

42.1 Leyenda de recibos

Marca	Significado
📐 Lean	Identidad probada formalmente en Lean (consistencia algebraica, no causalidad sobre el modelo)
📊 Datos	Respaldada por datos reproducibles (atlas, experimentos)
✓ Derivado	Derivada de primeros principios o definición estándar
~ Analogía	Analogía/lente útil, etiquetada como tal (no teorema)
✗→✓ Erratum	Tenía un error, corregido (y, si aplica, re-probado)
🟡 Provisional	Afirmación no validada del todo / pendiente de réplica

(La filosofía detrás de esta columna es el Cap. 38: la honestidad se demuestra con recibos.)

42.2 Parte I — Fundamentos

Fórmula	Qué hace	Cap.	Recibo
\(\mathrm{Attention}(Q,K,V)=\mathrm{softmax}\!\big(\tfrac{QK^\top}{\sqrt{d_k}}\big)V\)	Mezcla ponderada: cada token recoge info de los demás según afinidad	4	✓ Derivado
\(1/\sqrt{d_k}\) (escalado)	Evita que los productos escalares crezcan con \(d_k\) y saturen el softmax	4	✓ Derivado
\(\mathrm{MHA}=\mathrm{Concat}(\text{cabezas})\,W^O\)	Varias cabezas en paralelo + proyección de salida	5	✓ Derivado
\(\mathrm{FFN}(x)=\sigma(xW_1+b_1)W_2+b_2\)	Procesa cada token por separado (memoria clave-valor)	6	✓ Derivado
SwiGLU: \((\mathrm{Swish}(xW)\odot xV)W_2\)	Variante con gating de la FFN (estándar moderno)	6	📊 Datos
\(\mathrm{LayerNorm}(x)=\gamma\tfrac{x-\mu}{\sigma}+\beta\)	Reescala la activación → estabilidad	7	✓ Derivado
\(\mathrm{RMSNorm}(x)=\gamma\,\tfrac{x}{\sqrt{\overline{x^2}}}\)	Como LayerNorm sin centrar (más barata)	7	✓ Derivado
\(\omega_i=\theta^{-2i/d}\) (frecuencias RoPE)	Cada par de dimensiones rota a su velocidad	8	✓ Derivado

42.3 Parte I — Entrenamiento e inferencia

Fórmula	Qué hace	Cap.	Recibo
\(\mathcal{L}=-\log p_\text{modelo}(\text{token correcto})\)	Entropía cruzada: el objetivo de entrenamiento	11	✓ Derivado
\(\text{perplejidad}=e^{\mathcal{L}}\)	“Entre cuántos tokens duda” (legible)	11	✓ Derivado
\(C\approx 6ND\)	Coste de cómputo ≈ 6 × parámetros × tokens	25	✓ Derivado
\(L(N,D)=E+\tfrac{A}{N^\alpha}+\tfrac{B}{D^\beta}\)	Ley de escala: la pérdida frente a tamaño y datos	25	📊 Datos
\(\mathrm{softmax}(z/\tau)\) (temperatura)	\(\tau\) controla cuán “aventurado” es el muestreo	12, 29	✓ Derivado

42.4 Parte II–III — Nuestra teoría: atención sobre la distancia [EDGE]

Fórmula	Qué hace	Cap.	Recibo
\(A(d)\propto d^{-\gamma}\)	La ley de decaimiento: atención media vs distancia	15	📊 Datos (R²>0,95, 30+ modelos)
\(\gamma_{\text{Padé}}=\dfrac{2\theta-T\sqrt2}{2\theta+T\sqrt2}\)	Predice γ desde la geometría (θ, T), sin entrenar	15	📐 Lean (Cayley) · 📊 (mediana ~22% error, Fase A)
\(\lambda_i=2\pi\,\theta^{2i/d}\)	Longitud de onda de cada par de RoPE (aliasing)	14	✓ Derivado
\(n_{\text{active}}(d)=\tfrac{d_\text{head}}{2}\big(1-\log_\theta\tfrac{d}{2\pi}\big)\)	Cuántos pares conservan señal posicional a distancia \(d\)	14	✓ Derivado
\(T_{\text{cross}}=2\pi\sqrt\theta,\ \ T_{\text{max}}=2\pi\theta\)	Las dos escalas: empieza a degradarse / se agota	14	✓ Derivado
\(\gamma_{\text{obs}}=\gamma_{\text{geom}}+\gamma_{\text{train}}+\gamma_{\text{arch}}+\varepsilon\)	Descompone γ medido en sus fuentes	15	📊 Datos · 🟡 (eje imprint provisional)
\(D_f\sim\varepsilon^{-1/(\gamma-1)}\)	Ventana de KV necesaria derivada de γ (γ>1)	20	🟡 Provisional (falta benchmark)

42.5 Parte III — Lente física [EDGE]

Fórmula	Qué hace	Cap.	Recibo
\(Z=\mathrm{Li}_\gamma(e^{-\lambda})\)	Función de partición (polilogaritmo) de la atención	21	✓ Derivado
\(\text{Fisher}=C_V/\gamma^2\)	Sensibilidad estadística = fluctuación térmica	22	📐 Lean
\(C_V(\gamma{=}1,N)=\dfrac{(\log N)^2}{12}\)	Capacidad calorífica en la frontera	22	✗→✓ Erratum (era /4) · 📐 Lean
\(S_\gamma\sim\log N\) (área-ley)	La entropía de atención crece logarítmicamente	22	📊 Datos (56 modelos)
\(s=(\gamma-1)/2,\ \ \alpha=\gamma-1\)	Orden fraccionario / índice de Lévy a partir de γ	23	~ Analogía (mapeo etiquetado)
\(\chi=1/\|\gamma-1\|\)	Susceptibilidad cerca de la frontera γ=1	21	✓ Derivado
γ=1 ↔︎ temperatura de Hagedorn	La frontera de fase (Fase A / Fase B)	21, 39	~ Analogía (síntesis nuestra)
Imprint: pendiente \(\nu\approx-1/(2\pi)\)	“Huella” de los datos de entrenamiento en γ	15, 38	✗ Refutado en datos (Lean sí; no reproduce)

42.6 Parte IV–V — Adaptación y uso

Fórmula	Qué hace	Cap.	Recibo
\(\mathcal{L}_R=-\log\sigma\big(r(x,y_w)-r(x,y_l)\big)\)	Modelo de recompensa (Bradley-Terry) desde preferencias	27	✓ Derivado
\(\max\ \mathbb{E}[r]-\beta\,\mathrm{KL}(\pi_\theta\\|\pi_\text{ref})\)	Objetivo RLHF: maximizar recompensa con correa KL	27	✓ Derivado
\(\mathcal{L}_{\text{DPO}}=-\log\sigma\big(\beta\log\tfrac{\pi_\theta(y_w)}{\pi_\text{ref}(y_w)}-\beta\log\tfrac{\pi_\theta(y_l)}{\pi_\text{ref}(y_l)}\big)\)	Optimiza preferencias sin RL ni modelo de recompensa	27	✓ Derivado
NT-Xent: \(-\log\tfrac{e^{\mathrm{sim}(h,h^+)/\tau}}{\sum_j e^{\mathrm{sim}(h,h_j)/\tau}}\)	Pérdida contrastiva (acercar positivos, alejar negativos)	26, 33	✓ Derivado
CFG: \(\text{logits}_\text{sin}+\gamma(\text{logits}_\text{con}-\text{logits}_\text{sin})\)	Guía sin clasificador: amplifica el efecto del prompt	29	✓ Derivado

42.7 Parte VI — Eficiencia

Fórmula	Qué hace	Cap.	Recibo
\(h=W_0x+\tfrac{\alpha}{r}BAx\) (LoRA)	Delta de rango bajo; \(B{=}0\) al inicio; fusionable	28	📊 Datos
\(x\approx S\,(x_q-Z)\) (cuantización)	Mapa real↔︎entero: escala \(S\) + zero-point \(Z\)	35	✓ Derivado
\(\big(\varphi(Q)\varphi(K)^\top\big)V=\varphi(Q)\big(\varphi(K)^\top V\big)\)	Reasociación → atención lineal O(n)	34	✓ Derivado
Coste atención \(=O(n^2 d)\) cómputo, \(O(n^2)\) memoria	Por qué la atención es cara en contexto largo	34	✓ Derivado
Latencia \(\approx \text{TTFT}+\text{TPOT}\times n_\text{tokens}\)	Descompone la latencia de servir	36	✓ Derivado

42.8 Cómo leer esta tabla

Para entender una fórmula término a término, ve al capítulo indicado: ahí está definida cada letra, su función en el transformer y su analogía.
La columna Recibo te dice cuánto fiarte: una 📐 Lean está probada algebraicamente; 📊 Datos, comprobada empíricamente; ~ Analogía, es una lente útil pero no un teorema; 🟡 y ✗ te avisan de lo no validado o refutado —incluidos nuestros propios casos—.
Las identidades Lean enlazan a las pruebas formales (📐); los resultados con 📊 a los datos abiertos del Paper I (Zenodo). Nada aquí te pide que nos creas: te da dónde comprobarlo.

Siguiente referencia (R2): el cookbook —recetas paso a paso para medir γ, dimensionar el KV y aplicar estas fórmulas a tu propio modelo—.