Qué es. La tabla de consulta de todas las fórmulas importantes del libro, cada una con qué hace, dónde se explica a fondo, y —lo que nos distingue— su recibo: si está probada en Lean, respaldada por datos, derivada, es una analogía etiquetada o fue corregida (erratum). Aquí no hay narrativa: es para buscar y comprobar.
Leyenda de recibos
| 📐 Lean |
Identidad probada formalmente en Lean (consistencia algebraica, no causalidad sobre el modelo) |
| 📊 Datos |
Respaldada por datos reproducibles (atlas, experimentos) |
| ✓ Derivado |
Derivada de primeros principios o definición estándar |
| ~ Analogía |
Analogía/lente útil, etiquetada como tal (no teorema) |
| ✗→✓ Erratum |
Tenía un error, corregido (y, si aplica, re-probado) |
| 🟡 Provisional |
Afirmación no validada del todo / pendiente de réplica |
(La filosofía detrás de esta columna es el Cap. 38: la honestidad se demuestra con recibos.)
Parte I — Fundamentos
| \(\mathrm{Attention}(Q,K,V)=\mathrm{softmax}\!\big(\tfrac{QK^\top}{\sqrt{d_k}}\big)V\) |
Mezcla ponderada: cada token recoge info de los demás según afinidad |
4 |
✓ Derivado |
| \(1/\sqrt{d_k}\) (escalado) |
Evita que los productos escalares crezcan con \(d_k\) y saturen el softmax |
4 |
✓ Derivado |
| \(\mathrm{MHA}=\mathrm{Concat}(\text{cabezas})\,W^O\) |
Varias cabezas en paralelo + proyección de salida |
5 |
✓ Derivado |
| \(\mathrm{FFN}(x)=\sigma(xW_1+b_1)W_2+b_2\) |
Procesa cada token por separado (memoria clave-valor) |
6 |
✓ Derivado |
| SwiGLU: \((\mathrm{Swish}(xW)\odot xV)W_2\) |
Variante con gating de la FFN (estándar moderno) |
6 |
📊 Datos |
| \(\mathrm{LayerNorm}(x)=\gamma\tfrac{x-\mu}{\sigma}+\beta\) |
Reescala la activación → estabilidad |
7 |
✓ Derivado |
| \(\mathrm{RMSNorm}(x)=\gamma\,\tfrac{x}{\sqrt{\overline{x^2}}}\) |
Como LayerNorm sin centrar (más barata) |
7 |
✓ Derivado |
| \(\omega_i=\theta^{-2i/d}\) (frecuencias RoPE) |
Cada par de dimensiones rota a su velocidad |
8 |
✓ Derivado |
Parte I — Entrenamiento e inferencia
| \(\mathcal{L}=-\log p_\text{modelo}(\text{token correcto})\) |
Entropía cruzada: el objetivo de entrenamiento |
11 |
✓ Derivado |
| \(\text{perplejidad}=e^{\mathcal{L}}\) |
“Entre cuántos tokens duda” (legible) |
11 |
✓ Derivado |
| \(C\approx 6ND\) |
Coste de cómputo ≈ 6 × parámetros × tokens |
25 |
✓ Derivado |
| \(L(N,D)=E+\tfrac{A}{N^\alpha}+\tfrac{B}{D^\beta}\) |
Ley de escala: la pérdida frente a tamaño y datos |
25 |
📊 Datos |
| \(\mathrm{softmax}(z/\tau)\) (temperatura) |
\(\tau\) controla cuán “aventurado” es el muestreo |
12, 29 |
✓ Derivado |
Parte II–III — Nuestra teoría: atención sobre la distancia [EDGE]
| \(A(d)\propto d^{-\gamma}\) |
La ley de decaimiento: atención media vs distancia |
15 |
📊 Datos (R²>0,95, 30+ modelos) |
| \(\gamma_{\text{Padé}}=\dfrac{2\theta-T\sqrt2}{2\theta+T\sqrt2}\) |
Predice γ desde la geometría (θ, T), sin entrenar |
15 |
📐 Lean (Cayley) · 📊 (mediana ~22% error, Fase A) |
| \(\lambda_i=2\pi\,\theta^{2i/d}\) |
Longitud de onda de cada par de RoPE (aliasing) |
14 |
✓ Derivado |
| \(n_{\text{active}}(d)=\tfrac{d_\text{head}}{2}\big(1-\log_\theta\tfrac{d}{2\pi}\big)\) |
Cuántos pares conservan señal posicional a distancia \(d\) |
14 |
✓ Derivado |
| \(T_{\text{cross}}=2\pi\sqrt\theta,\ \ T_{\text{max}}=2\pi\theta\) |
Las dos escalas: empieza a degradarse / se agota |
14 |
✓ Derivado |
| \(\gamma_{\text{obs}}=\gamma_{\text{geom}}+\gamma_{\text{train}}+\gamma_{\text{arch}}+\varepsilon\) |
Descompone γ medido en sus fuentes |
15 |
📊 Datos · 🟡 (eje imprint provisional) |
| \(D_f\sim\varepsilon^{-1/(\gamma-1)}\) |
Ventana de KV necesaria derivada de γ (γ>1) |
20 |
🟡 Provisional (falta benchmark) |
Parte III — Lente física [EDGE]
| \(Z=\mathrm{Li}_\gamma(e^{-\lambda})\) |
Función de partición (polilogaritmo) de la atención |
21 |
✓ Derivado |
| \(\text{Fisher}=C_V/\gamma^2\) |
Sensibilidad estadística = fluctuación térmica |
22 |
📐 Lean |
| \(C_V(\gamma{=}1,N)=\dfrac{(\log N)^2}{12}\) |
Capacidad calorífica en la frontera |
22 |
✗→✓ Erratum (era /4) · 📐 Lean |
| \(S_\gamma\sim\log N\) (área-ley) |
La entropía de atención crece logarítmicamente |
22 |
📊 Datos (56 modelos) |
| \(s=(\gamma-1)/2,\ \ \alpha=\gamma-1\) |
Orden fraccionario / índice de Lévy a partir de γ |
23 |
~ Analogía (mapeo etiquetado) |
| \(\chi=1/|\gamma-1|\) |
Susceptibilidad cerca de la frontera γ=1 |
21 |
✓ Derivado |
| γ=1 ↔︎ temperatura de Hagedorn |
La frontera de fase (Fase A / Fase B) |
21, 39 |
~ Analogía (síntesis nuestra) |
| Imprint: pendiente \(\nu\approx-1/(2\pi)\) |
“Huella” de los datos de entrenamiento en γ |
15, 38 |
✗ Refutado en datos (Lean sí; no reproduce) |
Parte IV–V — Adaptación y uso
| \(\mathcal{L}_R=-\log\sigma\big(r(x,y_w)-r(x,y_l)\big)\) |
Modelo de recompensa (Bradley-Terry) desde preferencias |
27 |
✓ Derivado |
| \(\max\ \mathbb{E}[r]-\beta\,\mathrm{KL}(\pi_\theta\|\pi_\text{ref})\) |
Objetivo RLHF: maximizar recompensa con correa KL |
27 |
✓ Derivado |
| \(\mathcal{L}_{\text{DPO}}=-\log\sigma\big(\beta\log\tfrac{\pi_\theta(y_w)}{\pi_\text{ref}(y_w)}-\beta\log\tfrac{\pi_\theta(y_l)}{\pi_\text{ref}(y_l)}\big)\) |
Optimiza preferencias sin RL ni modelo de recompensa |
27 |
✓ Derivado |
| NT-Xent: \(-\log\tfrac{e^{\mathrm{sim}(h,h^+)/\tau}}{\sum_j e^{\mathrm{sim}(h,h_j)/\tau}}\) |
Pérdida contrastiva (acercar positivos, alejar negativos) |
26, 33 |
✓ Derivado |
| CFG: \(\text{logits}_\text{sin}+\gamma(\text{logits}_\text{con}-\text{logits}_\text{sin})\) |
Guía sin clasificador: amplifica el efecto del prompt |
29 |
✓ Derivado |
Parte VI — Eficiencia
| \(h=W_0x+\tfrac{\alpha}{r}BAx\) (LoRA) |
Delta de rango bajo; \(B{=}0\) al inicio; fusionable |
28 |
📊 Datos |
| \(x\approx S\,(x_q-Z)\) (cuantización) |
Mapa real↔︎entero: escala \(S\) + zero-point \(Z\) |
35 |
✓ Derivado |
| \(\big(\varphi(Q)\varphi(K)^\top\big)V=\varphi(Q)\big(\varphi(K)^\top V\big)\) |
Reasociación → atención lineal O(n) |
34 |
✓ Derivado |
| Coste atención \(=O(n^2 d)\) cómputo, \(O(n^2)\) memoria |
Por qué la atención es cara en contexto largo |
34 |
✓ Derivado |
| Latencia \(\approx \text{TTFT}+\text{TPOT}\times n_\text{tokens}\) |
Descompone la latencia de servir |
36 |
✓ Derivado |
Cómo leer esta tabla
- Para entender una fórmula término a término, ve al capítulo indicado: ahí está definida cada letra, su función en el transformer y su analogía.
- La columna Recibo te dice cuánto fiarte: una 📐 Lean está probada algebraicamente; 📊 Datos, comprobada empíricamente; ~ Analogía, es una lente útil pero no un teorema; 🟡 y ✗ te avisan de lo no validado o refutado —incluidos nuestros propios casos—.
- Las identidades Lean enlazan a las pruebas formales (📐); los resultados con 📊 a los datos abiertos del Paper I (Zenodo). Nada aquí te pide que nos creas: te da dónde comprobarlo.
Siguiente referencia (R2): el cookbook —recetas paso a paso para medir γ, dimensionar el KV y aplicar estas fórmulas a tu propio modelo—.