1  Cómo usar esta guía

Empieza aquí. Este capítulo corto explica para quién es la guía, cómo está organizada, qué significan sus insignias (las marcas de color que verás por todas partes) y por dónde leer según lo que busques. Tres minutos que te ahorrarán tiempo en los otros cuarenta capítulos.

1.1 Para quién es

Para cualquiera que trabaje con transformers y quiera entenderlos de verdad, no solo usarlos: estudiantes, ingenieros, investigadores. Empezamos de cero (qué es un token) y llegamos a la frontera de 2026. No hace falta más que matemáticas de bachillerato y curiosidad: cada fórmula se explica término a término, en lenguaje llano, y con una analogía antes de la ecuación.

1.2 Qué la hace distinta

Hay manuales excelentes de transformers. Este añade lo que ningún otro tiene:

  • Atención a lo largo de la distancia (Parte II): un atlas de γ medido en 42 modelos, la ley de decaimiento \(A(d)\propto d^{-\gamma}\) y la ventana de KV derivada de ella —datos y teoría que no encontrarás en otra guía—.
  • Una lente física (Parte III): termodinámica, fases y transporte fraccionario de la atención, etiquetados con honestidad (derivado vs analogía).
  • Un audit de fórmulas (Parte VII): verificado vs folclore vs numerología, con pruebas formales en Lean y datos abiertos —incluidos nuestros propios errores y refutaciones—.
  • Una herramienta interactiva (tafagent) y el mapa del paisaje 2026.

1.3 Cómo está organizada

Parte De qué va
0 Esta orientación.
I — Fundamentos (1-12) De texto a un transformer que funciona: tokens, embeddings, atención, FFN, normalización, RoPE, el bloque, arquitecturas, entrenamiento, inferencia.
II — Atención sobre la distancia (13-20) Nuestro territorio: leer mapas, aliasing, la ley γ, el atlas, sumideros, taxonomía, contexto largo, KV-cache.
III — Lente física (21-24) Fases, termodinámica, fraccionario, grokking.
IV — Entrenar y adaptar (25-28) Pre-entrenamiento a escala, fine-tuning, alineamiento (RLHF/DPO), PEFT (LoRA).
V — Usar (29-33) Generación, prompting, RAG, agentes, multimodal.
VI — Eficiencia (34-36) Atención eficiente, compresión, servir.
VII — Qué es real (37-40) Interpretabilidad, el audit, el mapa 2026, ética.
VIII — Referencia (R1-R10) Formulario, cookbook, glosario, medir tu γ, manual de tafagent, soluciones.

1.4 Las insignias: cómo leer las cajas de color

El libro usa cajas de color con un código consistente. Apréndelo una vez (verás un ejemplo real de cada una en cualquier capítulo):

  • 🧭 Dónde estamos (caja azul) — abre cada capítulo; te sitúa en el mapa.
  • 🧩 Analogía (caja azul claro) — el puente a la intuición, antes de la fórmula.
  • ✓ Verificado (caja verde) — algo sólido, derivado o probado; en la teoría física, 📐 Verificado en Lean marca una prueba formal.
  • ⚠ Honesto (caja ámbar) — un límite, una salvedad o una refutación (incluidas las nuestras).
  • 🧠 Curiosidad — un dato sorprendente y verificado.
  • 🧪 Pruébalo — tafagent — cómo comprobarlo tú mismo con la herramienta (con enlace).
  • 📄 Nuestro paper — enlace abierto (Zenodo) a los datos/derivaciones que lo respaldan.

Y, sobre todo, el sistema de recibos del Cap. 38: cada afirmación es verificada (con prueba o dato), folclore (popular sin justificación) o numerología (encaja sin mecanismo). La regla del lector: pide el recibo.

1.5 El compromiso de honestidad

Una sola idea recorre todo el libro: la honestidad no se proclama, se demuestra. Eso significa que verás fórmulas que fallaron, erratas propias corregidas (el C_V era /4, es /12) y resultados marcados como 🟡 no validados o ✗ refutados. No es un defecto: es el método. Un manual que solo cuenta sus aciertos no es de fiar.

1.6 Por dónde leer (itinerarios)

  • Si empiezas de cero: lee la Parte I en orden; es lineal y autocontenida.
  • Si ya sabes lo básico y quieres lo único: salta a la Parte II (atención sobre la distancia) y la III (lente física) —el corazón propio del libro—.
  • Si vienes a aplicar: Partes IV-VI (entrenar, usar, desplegar) + el cookbook (R2).
  • Si vienes a consultar: la Parte VIII —formulario (R1), glosario (R3), recetas (R2)— está pensada para buscar, no para leer de corrido.
  • Si te interesa “qué es real”: Parte VII (interpretabilidad, audit, mapa 2026, ética).

1.7 Convenciones

  • Las fórmulas se quedan —son importantes—, pero siempre explicadas: qué hace cada símbolo, en lenguaje llano, y qué función cumple en el transformer.
  • Cada capítulo abre con “La idea en una frase” y un apartado de Conceptos clave que define sus términos y su papel antes de desarrollarlos.
  • Las referencias van al final de cada capítulo (solo las que cita), clicables.
  • Para ver mapas de atención, usa BertViz / Transformer Explainer; para medir/predecir γ, horizonte, régimen y KV, usa tafagent.

Siguiente (Capítulo 1): el panorama —qué es un transformer y por qué ganó—.