44 R3 · Glosario
Qué es. Cada término importante del libro, definido de un vistazo, con el capítulo donde se explica a fondo. Para consulta rápida; las definiciones desarrolladas y sus analogías están en los capítulos.
44.1 A
- Activación masiva (massive activation). Unas pocas coordenadas del flujo residual con valores enormes (~10⁵×); causa de los sumideros. (Cap. 17)
- Activation patching (rastreo causal). Trasplantar una activación entre una pasada limpia y otra corrupta para aislar qué componente es causalmente responsable. (Cap. 37)
- Adapter. Pequeño módulo cuello de botella insertado en cada capa; precursor de LoRA. Añade latencia. (Cap. 28)
- Alineamiento. Hacer que el modelo siga instrucciones y se ajuste a lo que preferimos (SFT + RLHF/DPO). (Cap. 27)
- Aliasing. Cuando un par de RoPE completa una vuelta y deja de distinguir distancias → pérdida de resolución posicional. (Cap. 14)
- Alucinación. Salida fluida, segura y falsa (o no respaldada). En parte intrínseca al predecir el siguiente token. (Cap. 40)
- ANN (vecinos aproximados). Búsqueda de los vectores más cercanos sin comparar contra todos (HNSW, FAISS). (Cap. 31)
- Atención. Mezcla ponderada en que cada token recoge información de los demás según afinidad (Q·K). (Cap. 4)
- Atención lineal. Sustituir el softmax por un núcleo que permite reasociar el cálculo → coste O(n); pierde recuerdo. (Cap. 34)
- Atlas γ. γ medido en 42 modelos de 4 familias: una coordenada cross-arquitectura. (Cap. 16)
44.2 B
- Batching continuo. Agrupar peticiones a nivel de iteración (meter/sacar cada paso) → mantiene la GPU llena. (Cap. 36)
- Beam search. Decodificación que mantiene varias hipótesis; buena para tareas cerradas. (Cap. 12)
- BPE (Byte-Pair Encoding). Tokenización que fusiona los pares de símbolos más frecuentes. (Cap. 2)
- Bradley-Terry. Pérdida del modelo de recompensa: ordena respuestas según preferencias humanas. (Cap. 27)
44.3 C
- Cabeza (head). Una de las atenciones paralelas de la multi-cabeza; suele especializarse. (Cap. 5)
- Cabeza de inducción. Cabeza que completa patrones “A…A→B”; mecanismo candidato del in-context learning. (Cap. 5, 30)
- Caché KV. Memoria de claves/valores ya calculados para no recomputarlos al generar. (Cap. 12, 20)
- CKA inter-capa. Similitud representacional entre capas; su re-ascenso predice el grokking (resultado nuestro). (Cap. 24)
- Chain-of-Thought (CoT). Pedir pasos de razonamiento intermedios; emergente con la escala. (Cap. 30)
- Chunking. Trocear documentos en fragmentos antes de indexarlos para RAG. (Cap. 31)
- CLIP. Encoders de imagen y texto entrenados contrastivamente en un espacio compartido → zero-shot. (Cap. 33)
- Conexión residual. Sumar la entrada a la salida de un bloque; mantiene vivo el gradiente. (Cap. 7)
- Contrastivo (aprendizaje). Acercar pares positivos y alejar negativos en el espacio de embeddings. (Cap. 26)
- Cuantización. Representar pesos/activaciones con menos bits (escala + zero-point). (Cap. 35)
44.4 D
- D_f (ventana de KV). Número de tokens de KV que de verdad hace falta conservar, derivado de γ. (Cap. 20)
- Decode. Fase de generación token a token; bandwidth-bound; cuello de botella del serving. (Cap. 36)
- Decodificación restringida. Enmascarar tokens inválidos + renormalizar → formato garantizado (no verdad). (Cap. 29)
- Decodificación especulativa. Un borrador propone tokens y el modelo grande los verifica en paralelo (misma salida, más rápido). (Cap. 29)
- Destilación. Entrenar un alumno pequeño para imitar los objetivos suaves de un maestro grande. (Cap. 35)
- DPO. Optimización directa de preferencias: el objetivo de RLHF sin RL ni modelo de recompensa. (Cap. 27)
44.5 E
- Embedding. Vector que representa el significado de un token o texto. (Cap. 3, 26)
- Encoder / decoder. Codificador bidireccional (entender) / decodificador causal (generar). (Cap. 10)
- Erratum. Error propio, marcado, corregido y re-demostrado (p. ej. C_V /4→/12). (Cap. 22, 38)
- Escalado 1/√d_k. Factor que evita que los productos escalares saturen el softmax. (Cap. 4)
44.6 F
- FFN (feed-forward). Red que procesa cada token por separado; memoria clave-valor. (Cap. 6)
- FlashAttention. Atención exacta sin materializar la matriz n×n (tiling + online softmax). (Cap. 34)
- Flujo residual. El “carril” compartido del que cada componente lee y escribe; canal de comunicación. (Cap. 3, 37)
- Folclore. Creencia popular pero no justificada (o ya contradicha). (Cap. 38)
- Fraccionario (orden). Lente que lee la atención como difusión de Lévy de orden (γ−1)/2. (Cap. 23)
44.7 G
- γ (gamma). Exponente de decaimiento de la atención con la distancia: \(A(d)\propto d^{-\gamma}\). (Cap. 15)
- γ_Padé. Predicción de γ desde la geometría (θ, T), sin entrenar. (Cap. 15)
- GQA / MQA / MLA. Compartir K/V entre cabezas para reducir la caché (no el cómputo). (Cap. 18)
- Grokking. Generalización tardía y repentina tras memorizar. (Cap. 24)
44.8 H
- Hagedorn (γ=1). La frontera de fase entre mirar lejos (Fase A) y concentrar (Fase B). (Cap. 21)
- HBM / SRAM. Memoria grande y lenta / minúscula y rápida de la GPU; su tráfico domina la atención. (Cap. 34)
44.9 I — L
- In-context learning (ICL). Aprender una tarea de ejemplos en el prompt, sin actualizar pesos. (Cap. 30)
- Jailbreak. Prompt que sortea el entrenamiento de seguridad. (Cap. 40)
- LayerNorm / RMSNorm. Normalización que reescala la activación → estabilidad. (Cap. 7)
- Leyes de escala. La pérdida baja de forma predecible con tamaño, datos y cómputo (Kaplan, Chinchilla). (Cap. 11, 25)
- Logit lens. Proyectar una activación intermedia por la salida para leer la “apuesta” del modelo por capa. (Cap. 37)
- LoRA / QLoRA. Delta de rango bajo (\(B{=}0\) al inicio, fusionable) / sobre base de 4 bits. (Cap. 28)
- “Lost in the middle”. Los modelos usan peor la información del medio del contexto. (Cap. 31)
44.10 M — N
- Máscara causal. Impide que un token mire a los futuros (generación). (Cap. 9, 10)
- Memory-bound. Limitado por mover datos, no por calcular (caso de la atención). (Cap. 34)
- Multi-cabeza. Varias atenciones en paralelo + proyección de salida \(W^O\). (Cap. 5)
- Numerología. Una fórmula que encaja con los datos sin mecanismo que lo explique. (Cap. 38)
44.11 O — P
- Online softmax. Calcular el softmax por bloques con máximo y suma móviles. (Cap. 34)
- PagedAttention. Gestionar la caché KV en bloques estilo memoria virtual → cero desperdicio. (Cap. 34, 36)
- PEFT. Fine-tuning eficiente: congelar la base y entrenar pocos parámetros. (Cap. 28)
- Perplejidad. \(e^{\text{pérdida}}\): “entre cuántos tokens duda” el modelo. (Cap. 11)
- Poda (pruning). Quitar pesos (estructurada = bloques; no estructurada = sueltos). (Cap. 35)
- Polisemanticidad. Una neurona dispara por muchos conceptos dispares (causada por superposición). (Cap. 37)
- Prefill. Fase que procesa el prompt entero en paralelo; compute-bound; marca el TTFT. (Cap. 36)
- Prompt injection. Instrucciones hostiles coladas como datos; se agrava en agentes. (Cap. 30, 40)
44.12 Q — R
- QK / OV (circuitos). QK decide dónde atender; OV decide qué escribir. (Cap. 37)
- RAG. Recuperar evidencia y condicionar la generación sobre ella (memoria no-paramétrica). (Cap. 31)
- ReAct. Bucle de agente: Pensamiento → Acción → Observación. (Cap. 32)
- Recibo. La prueba que respalda una afirmación: Lean (álgebra) o datos. (Cap. 38)
- RLHF. Alinear con un modelo de recompensa + PPO, con correa KL. (Cap. 27)
- RoPE. Codificación posicional rotatoria: rota pares de dimensiones según la posición. (Cap. 8)
44.13 S — Z
- SAE (autoencoder disperso). Diccionario que descompone activaciones en rasgos monosemánticos; deshace la superposición. (Cap. 37)
- Self-consistency. Muestrear varias cadenas de razonamiento y votar la mayoritaria. (Cap. 30)
- Sumidero (attention sink). Masa de atención que se acumula en pocos tokens de baja información (BOS). (Cap. 17)
- Superposición. Guardar más rasgos que dimensiones en direcciones casi ortogonales. (Cap. 37)
- Temperatura (τ). Reescala los logits antes del softmax: baja = prudente, alta = aventurado. (Cap. 12, 29)
- Token. Identificador entero de un trozo de texto (subpalabra). (Cap. 2)
- TTFT / TPOT. Tiempo al primer token (prefill) / tiempo por token de salida (decode). (Cap. 36)
- Verificado / derivado. Afirmación con recibo (prueba formal o datos reproducibles). (Cap. 38)
- ViT (Vision Transformer). Transformer sobre parches de imagen tratados como tokens. (Cap. 33)
- Z (función de partición). \(Z=\mathrm{Li}_\gamma(e^{-\lambda})\), en la lente termodinámica. (Cap. 21)
Siguiente referencia (R4): cómo medir tu propio γ y los datasets abiertos en Hugging Face para reproducirlo.