Cómo Atienden los Transformers

La guía de campo y referencia completa — de los tokens al contexto largo, cada fórmula verificada, medida y construida desde cero

Autor/a

Carles Marín

Prefacio

Esta es una guía de campo completa sobre cómo atienden los transformers. Empieza desde cero —texto, tokens, vectores— y sube, en un solo libro continuo, hasta la frontera de investigación de la atención a lo largo de la distancia: cómo decae la atención, por qué se rompe el contexto largo, cómo comprimir un KV-cache, y qué establece —y qué no— la literatura de 2026 sobre el colapso de la atención.

Está escrita para leerse de dos maneras. En la superficie, cada idea se introduce en lenguaje llano y con una analogía cotidiana antes de cualquier fórmula, para que un lector curioso sin formación previa siga toda la historia. Por debajo, cada afirmación va respaldada por un programa que corre, una medición que puedes reproducir, o una prueba formal.

Cómo se marcan las afirmaciones

A lo largo del libro, unas cajas de color marcan el estado de cada afirmación. Son una clave, no un eslogan:

✓ Verificado

Derivable desde primeros principios o medido de primera mano —con la derivación o el dato a la vista.

⚠ Folclore / en disputa

Una afirmación popular injustificada o contestada en la literatura —siempre acompañada de la cita que la discute.

✗ Numerología / erratum

Una coincidencia numérica sin mecanismo, o un error publicado que corregimos.

🔍 Para profundizar

Rigor opcional —derivaciones, demostraciones—. Se puede saltar sin perder el hilo. Pliégalo si solo quieres la intuición.

Cómo leerla

¿Nuevo en transformers? Lee la prosa y las analogías; salta las cajas “Para profundizar” y el código. Aun así entenderás todas las ideas.
¿Construyes con transformers? La segunda mitad (atención a distancia, KV-cache, contexto largo) y la tabla de fórmulas del final están hechas para ti.
¿Quieres trastear? Abre el compañero interactivo, tafagent, y mide estas magnitudes en el modelo que elijas mientras lees.