44 R3 · Glosario

Qué es. Cada término importante del libro, definido de un vistazo, con el capítulo donde se explica a fondo. Para consulta rápida; las definiciones desarrolladas y sus analogías están en los capítulos.

44.1 A

Activación masiva (massive activation). Unas pocas coordenadas del flujo residual con valores enormes (~10⁵×); causa de los sumideros. (Cap. 17)
Activation patching (rastreo causal). Trasplantar una activación entre una pasada limpia y otra corrupta para aislar qué componente es causalmente responsable. (Cap. 37)
Adapter. Pequeño módulo cuello de botella insertado en cada capa; precursor de LoRA. Añade latencia. (Cap. 28)
Alineamiento. Hacer que el modelo siga instrucciones y se ajuste a lo que preferimos (SFT + RLHF/DPO). (Cap. 27)
Aliasing. Cuando un par de RoPE completa una vuelta y deja de distinguir distancias → pérdida de resolución posicional. (Cap. 14)
Alucinación. Salida fluida, segura y falsa (o no respaldada). En parte intrínseca al predecir el siguiente token. (Cap. 40)
ANN (vecinos aproximados). Búsqueda de los vectores más cercanos sin comparar contra todos (HNSW, FAISS). (Cap. 31)
Atención. Mezcla ponderada en que cada token recoge información de los demás según afinidad (Q·K). (Cap. 4)
Atención lineal. Sustituir el softmax por un núcleo que permite reasociar el cálculo → coste O(n); pierde recuerdo. (Cap. 34)
Atlas γ. γ medido en 42 modelos de 4 familias: una coordenada cross-arquitectura. (Cap. 16)

44.2 B

Batching continuo. Agrupar peticiones a nivel de iteración (meter/sacar cada paso) → mantiene la GPU llena. (Cap. 36)
Beam search. Decodificación que mantiene varias hipótesis; buena para tareas cerradas. (Cap. 12)
BPE (Byte-Pair Encoding). Tokenización que fusiona los pares de símbolos más frecuentes. (Cap. 2)
Bradley-Terry. Pérdida del modelo de recompensa: ordena respuestas según preferencias humanas. (Cap. 27)

44.3 C

Cabeza (head). Una de las atenciones paralelas de la multi-cabeza; suele especializarse. (Cap. 5)
Cabeza de inducción. Cabeza que completa patrones “A…A→B”; mecanismo candidato del in-context learning. (Cap. 5, 30)
Caché KV. Memoria de claves/valores ya calculados para no recomputarlos al generar. (Cap. 12, 20)
CKA inter-capa. Similitud representacional entre capas; su re-ascenso predice el grokking (resultado nuestro). (Cap. 24)
Chain-of-Thought (CoT). Pedir pasos de razonamiento intermedios; emergente con la escala. (Cap. 30)
Chunking. Trocear documentos en fragmentos antes de indexarlos para RAG. (Cap. 31)
CLIP. Encoders de imagen y texto entrenados contrastivamente en un espacio compartido → zero-shot. (Cap. 33)
Conexión residual. Sumar la entrada a la salida de un bloque; mantiene vivo el gradiente. (Cap. 7)
Contrastivo (aprendizaje). Acercar pares positivos y alejar negativos en el espacio de embeddings. (Cap. 26)
Cuantización. Representar pesos/activaciones con menos bits (escala + zero-point). (Cap. 35)

44.4 D

D_f (ventana de KV). Número de tokens de KV que de verdad hace falta conservar, derivado de γ. (Cap. 20)
Decode. Fase de generación token a token; bandwidth-bound; cuello de botella del serving. (Cap. 36)
Decodificación restringida. Enmascarar tokens inválidos + renormalizar → formato garantizado (no verdad). (Cap. 29)
Decodificación especulativa. Un borrador propone tokens y el modelo grande los verifica en paralelo (misma salida, más rápido). (Cap. 29)
Destilación. Entrenar un alumno pequeño para imitar los objetivos suaves de un maestro grande. (Cap. 35)
DPO. Optimización directa de preferencias: el objetivo de RLHF sin RL ni modelo de recompensa. (Cap. 27)

44.5 E

Embedding. Vector que representa el significado de un token o texto. (Cap. 3, 26)
Encoder / decoder. Codificador bidireccional (entender) / decodificador causal (generar). (Cap. 10)
Erratum. Error propio, marcado, corregido y re-demostrado (p. ej. C_V /4→/12). (Cap. 22, 38)
Escalado 1/√d_k. Factor que evita que los productos escalares saturen el softmax. (Cap. 4)

44.6 F

FFN (feed-forward). Red que procesa cada token por separado; memoria clave-valor. (Cap. 6)
FlashAttention. Atención exacta sin materializar la matriz n×n (tiling + online softmax). (Cap. 34)
Flujo residual. El “carril” compartido del que cada componente lee y escribe; canal de comunicación. (Cap. 3, 37)
Folclore. Creencia popular pero no justificada (o ya contradicha). (Cap. 38)
Fraccionario (orden). Lente que lee la atención como difusión de Lévy de orden (γ−1)/2. (Cap. 23)

44.7 G

γ (gamma). Exponente de decaimiento de la atención con la distancia: \(A(d)\propto d^{-\gamma}\). (Cap. 15)
γ_Padé. Predicción de γ desde la geometría (θ, T), sin entrenar. (Cap. 15)
GQA / MQA / MLA. Compartir K/V entre cabezas para reducir la caché (no el cómputo). (Cap. 18)
Grokking. Generalización tardía y repentina tras memorizar. (Cap. 24)

44.8 H

Hagedorn (γ=1). La frontera de fase entre mirar lejos (Fase A) y concentrar (Fase B). (Cap. 21)
HBM / SRAM. Memoria grande y lenta / minúscula y rápida de la GPU; su tráfico domina la atención. (Cap. 34)

44.9 I — L

In-context learning (ICL). Aprender una tarea de ejemplos en el prompt, sin actualizar pesos. (Cap. 30)
Jailbreak. Prompt que sortea el entrenamiento de seguridad. (Cap. 40)
LayerNorm / RMSNorm. Normalización que reescala la activación → estabilidad. (Cap. 7)
Leyes de escala. La pérdida baja de forma predecible con tamaño, datos y cómputo (Kaplan, Chinchilla). (Cap. 11, 25)
Logit lens. Proyectar una activación intermedia por la salida para leer la “apuesta” del modelo por capa. (Cap. 37)
LoRA / QLoRA. Delta de rango bajo (\(B{=}0\) al inicio, fusionable) / sobre base de 4 bits. (Cap. 28)
“Lost in the middle”. Los modelos usan peor la información del medio del contexto. (Cap. 31)

44.10 M — N

Máscara causal. Impide que un token mire a los futuros (generación). (Cap. 9, 10)
Memory-bound. Limitado por mover datos, no por calcular (caso de la atención). (Cap. 34)
Multi-cabeza. Varias atenciones en paralelo + proyección de salida \(W^O\). (Cap. 5)
Numerología. Una fórmula que encaja con los datos sin mecanismo que lo explique. (Cap. 38)

44.11 O — P

Online softmax. Calcular el softmax por bloques con máximo y suma móviles. (Cap. 34)
PagedAttention. Gestionar la caché KV en bloques estilo memoria virtual → cero desperdicio. (Cap. 34, 36)
PEFT. Fine-tuning eficiente: congelar la base y entrenar pocos parámetros. (Cap. 28)
Perplejidad. \(e^{\text{pérdida}}\): “entre cuántos tokens duda” el modelo. (Cap. 11)
Poda (pruning). Quitar pesos (estructurada = bloques; no estructurada = sueltos). (Cap. 35)
Polisemanticidad. Una neurona dispara por muchos conceptos dispares (causada por superposición). (Cap. 37)
Prefill. Fase que procesa el prompt entero en paralelo; compute-bound; marca el TTFT. (Cap. 36)
Prompt injection. Instrucciones hostiles coladas como datos; se agrava en agentes. (Cap. 30, 40)

44.12 Q — R

QK / OV (circuitos). QK decide dónde atender; OV decide qué escribir. (Cap. 37)
RAG. Recuperar evidencia y condicionar la generación sobre ella (memoria no-paramétrica). (Cap. 31)
ReAct. Bucle de agente: Pensamiento → Acción → Observación. (Cap. 32)
Recibo. La prueba que respalda una afirmación: Lean (álgebra) o datos. (Cap. 38)
RLHF. Alinear con un modelo de recompensa + PPO, con correa KL. (Cap. 27)
RoPE. Codificación posicional rotatoria: rota pares de dimensiones según la posición. (Cap. 8)

44.13 S — Z

SAE (autoencoder disperso). Diccionario que descompone activaciones en rasgos monosemánticos; deshace la superposición. (Cap. 37)
Self-consistency. Muestrear varias cadenas de razonamiento y votar la mayoritaria. (Cap. 30)
Sumidero (attention sink). Masa de atención que se acumula en pocos tokens de baja información (BOS). (Cap. 17)
Superposición. Guardar más rasgos que dimensiones en direcciones casi ortogonales. (Cap. 37)
Temperatura (τ). Reescala los logits antes del softmax: baja = prudente, alta = aventurado. (Cap. 12, 29)
Token. Identificador entero de un trozo de texto (subpalabra). (Cap. 2)
TTFT / TPOT. Tiempo al primer token (prefill) / tiempo por token de salida (decode). (Cap. 36)
Verificado / derivado. Afirmación con recibo (prueba formal o datos reproducibles). (Cap. 38)
ViT (Vision Transformer). Transformer sobre parches de imagen tratados como tokens. (Cap. 33)
Z (función de partición). \(Z=\mathrm{Li}_\gamma(e^{-\lambda})\), en la lente termodinámica. (Cap. 21)

Siguiente referencia (R4): cómo medir tu propio γ y los datasets abiertos en Hugging Face para reproducirlo.