42  R1 · Formulario maestro

Qué es. La tabla de consulta de todas las fórmulas importantes del libro, cada una con qué hace, dónde se explica a fondo, y —lo que nos distingue— su recibo: si está probada en Lean, respaldada por datos, derivada, es una analogía etiquetada o fue corregida (erratum). Aquí no hay narrativa: es para buscar y comprobar.

42.1 Leyenda de recibos

Marca Significado
📐 Lean Identidad probada formalmente en Lean (consistencia algebraica, no causalidad sobre el modelo)
📊 Datos Respaldada por datos reproducibles (atlas, experimentos)
✓ Derivado Derivada de primeros principios o definición estándar
~ Analogía Analogía/lente útil, etiquetada como tal (no teorema)
✗→✓ Erratum Tenía un error, corregido (y, si aplica, re-probado)
🟡 Provisional Afirmación no validada del todo / pendiente de réplica

(La filosofía detrás de esta columna es el Cap. 38: la honestidad se demuestra con recibos.)

42.2 Parte I — Fundamentos

Fórmula Qué hace Cap. Recibo
\(\mathrm{Attention}(Q,K,V)=\mathrm{softmax}\!\big(\tfrac{QK^\top}{\sqrt{d_k}}\big)V\) Mezcla ponderada: cada token recoge info de los demás según afinidad 4 ✓ Derivado
\(1/\sqrt{d_k}\) (escalado) Evita que los productos escalares crezcan con \(d_k\) y saturen el softmax 4 ✓ Derivado
\(\mathrm{MHA}=\mathrm{Concat}(\text{cabezas})\,W^O\) Varias cabezas en paralelo + proyección de salida 5 ✓ Derivado
\(\mathrm{FFN}(x)=\sigma(xW_1+b_1)W_2+b_2\) Procesa cada token por separado (memoria clave-valor) 6 ✓ Derivado
SwiGLU: \((\mathrm{Swish}(xW)\odot xV)W_2\) Variante con gating de la FFN (estándar moderno) 6 📊 Datos
\(\mathrm{LayerNorm}(x)=\gamma\tfrac{x-\mu}{\sigma}+\beta\) Reescala la activación → estabilidad 7 ✓ Derivado
\(\mathrm{RMSNorm}(x)=\gamma\,\tfrac{x}{\sqrt{\overline{x^2}}}\) Como LayerNorm sin centrar (más barata) 7 ✓ Derivado
\(\omega_i=\theta^{-2i/d}\) (frecuencias RoPE) Cada par de dimensiones rota a su velocidad 8 ✓ Derivado

42.3 Parte I — Entrenamiento e inferencia

Fórmula Qué hace Cap. Recibo
\(\mathcal{L}=-\log p_\text{modelo}(\text{token correcto})\) Entropía cruzada: el objetivo de entrenamiento 11 ✓ Derivado
\(\text{perplejidad}=e^{\mathcal{L}}\) “Entre cuántos tokens duda” (legible) 11 ✓ Derivado
\(C\approx 6ND\) Coste de cómputo ≈ 6 × parámetros × tokens 25 ✓ Derivado
\(L(N,D)=E+\tfrac{A}{N^\alpha}+\tfrac{B}{D^\beta}\) Ley de escala: la pérdida frente a tamaño y datos 25 📊 Datos
\(\mathrm{softmax}(z/\tau)\) (temperatura) \(\tau\) controla cuán “aventurado” es el muestreo 12, 29 ✓ Derivado

42.4 Parte II–III — Nuestra teoría: atención sobre la distancia [EDGE]

Fórmula Qué hace Cap. Recibo
\(A(d)\propto d^{-\gamma}\) La ley de decaimiento: atención media vs distancia 15 📊 Datos (R²>0,95, 30+ modelos)
\(\gamma_{\text{Padé}}=\dfrac{2\theta-T\sqrt2}{2\theta+T\sqrt2}\) Predice γ desde la geometría (θ, T), sin entrenar 15 📐 Lean (Cayley) · 📊 (mediana ~22% error, Fase A)
\(\lambda_i=2\pi\,\theta^{2i/d}\) Longitud de onda de cada par de RoPE (aliasing) 14 ✓ Derivado
\(n_{\text{active}}(d)=\tfrac{d_\text{head}}{2}\big(1-\log_\theta\tfrac{d}{2\pi}\big)\) Cuántos pares conservan señal posicional a distancia \(d\) 14 ✓ Derivado
\(T_{\text{cross}}=2\pi\sqrt\theta,\ \ T_{\text{max}}=2\pi\theta\) Las dos escalas: empieza a degradarse / se agota 14 ✓ Derivado
\(\gamma_{\text{obs}}=\gamma_{\text{geom}}+\gamma_{\text{train}}+\gamma_{\text{arch}}+\varepsilon\) Descompone γ medido en sus fuentes 15 📊 Datos · 🟡 (eje imprint provisional)
\(D_f\sim\varepsilon^{-1/(\gamma-1)}\) Ventana de KV necesaria derivada de γ (γ>1) 20 🟡 Provisional (falta benchmark)

42.5 Parte III — Lente física [EDGE]

Fórmula Qué hace Cap. Recibo
\(Z=\mathrm{Li}_\gamma(e^{-\lambda})\) Función de partición (polilogaritmo) de la atención 21 ✓ Derivado
\(\text{Fisher}=C_V/\gamma^2\) Sensibilidad estadística = fluctuación térmica 22 📐 Lean
\(C_V(\gamma{=}1,N)=\dfrac{(\log N)^2}{12}\) Capacidad calorífica en la frontera 22 ✗→✓ Erratum (era /4) · 📐 Lean
\(S_\gamma\sim\log N\) (área-ley) La entropía de atención crece logarítmicamente 22 📊 Datos (56 modelos)
\(s=(\gamma-1)/2,\ \ \alpha=\gamma-1\) Orden fraccionario / índice de Lévy a partir de γ 23 ~ Analogía (mapeo etiquetado)
\(\chi=1/|\gamma-1|\) Susceptibilidad cerca de la frontera γ=1 21 ✓ Derivado
γ=1 ↔︎ temperatura de Hagedorn La frontera de fase (Fase A / Fase B) 21, 39 ~ Analogía (síntesis nuestra)
Imprint: pendiente \(\nu\approx-1/(2\pi)\) “Huella” de los datos de entrenamiento en γ 15, 38 ✗ Refutado en datos (Lean sí; no reproduce)

42.6 Parte IV–V — Adaptación y uso

Fórmula Qué hace Cap. Recibo
\(\mathcal{L}_R=-\log\sigma\big(r(x,y_w)-r(x,y_l)\big)\) Modelo de recompensa (Bradley-Terry) desde preferencias 27 ✓ Derivado
\(\max\ \mathbb{E}[r]-\beta\,\mathrm{KL}(\pi_\theta\|\pi_\text{ref})\) Objetivo RLHF: maximizar recompensa con correa KL 27 ✓ Derivado
\(\mathcal{L}_{\text{DPO}}=-\log\sigma\big(\beta\log\tfrac{\pi_\theta(y_w)}{\pi_\text{ref}(y_w)}-\beta\log\tfrac{\pi_\theta(y_l)}{\pi_\text{ref}(y_l)}\big)\) Optimiza preferencias sin RL ni modelo de recompensa 27 ✓ Derivado
NT-Xent: \(-\log\tfrac{e^{\mathrm{sim}(h,h^+)/\tau}}{\sum_j e^{\mathrm{sim}(h,h_j)/\tau}}\) Pérdida contrastiva (acercar positivos, alejar negativos) 26, 33 ✓ Derivado
CFG: \(\text{logits}_\text{sin}+\gamma(\text{logits}_\text{con}-\text{logits}_\text{sin})\) Guía sin clasificador: amplifica el efecto del prompt 29 ✓ Derivado

42.7 Parte VI — Eficiencia

Fórmula Qué hace Cap. Recibo
\(h=W_0x+\tfrac{\alpha}{r}BAx\) (LoRA) Delta de rango bajo; \(B{=}0\) al inicio; fusionable 28 📊 Datos
\(x\approx S\,(x_q-Z)\) (cuantización) Mapa real↔︎entero: escala \(S\) + zero-point \(Z\) 35 ✓ Derivado
\(\big(\varphi(Q)\varphi(K)^\top\big)V=\varphi(Q)\big(\varphi(K)^\top V\big)\) Reasociación → atención lineal O(n) 34 ✓ Derivado
Coste atención \(=O(n^2 d)\) cómputo, \(O(n^2)\) memoria Por qué la atención es cara en contexto largo 34 ✓ Derivado
Latencia \(\approx \text{TTFT}+\text{TPOT}\times n_\text{tokens}\) Descompone la latencia de servir 36 ✓ Derivado

42.8 Cómo leer esta tabla

  • Para entender una fórmula término a término, ve al capítulo indicado: ahí está definida cada letra, su función en el transformer y su analogía.
  • La columna Recibo te dice cuánto fiarte: una 📐 Lean está probada algebraicamente; 📊 Datos, comprobada empíricamente; ~ Analogía, es una lente útil pero no un teorema; 🟡 y te avisan de lo no validado o refutado —incluidos nuestros propios casos—.
  • Las identidades Lean enlazan a las pruebas formales (📐); los resultados con 📊 a los datos abiertos del Paper I (Zenodo). Nada aquí te pide que nos creas: te da dónde comprobarlo.

Siguiente referencia (R2): el cookbook —recetas paso a paso para medir γ, dimensionar el KV y aplicar estas fórmulas a tu propio modelo—.