44  R3 · Glosario

Qué es. Cada término importante del libro, definido de un vistazo, con el capítulo donde se explica a fondo. Para consulta rápida; las definiciones desarrolladas y sus analogías están en los capítulos.

44.1 A

  • Activación masiva (massive activation). Unas pocas coordenadas del flujo residual con valores enormes (~10⁵×); causa de los sumideros. (Cap. 17)
  • Activation patching (rastreo causal). Trasplantar una activación entre una pasada limpia y otra corrupta para aislar qué componente es causalmente responsable. (Cap. 37)
  • Adapter. Pequeño módulo cuello de botella insertado en cada capa; precursor de LoRA. Añade latencia. (Cap. 28)
  • Alineamiento. Hacer que el modelo siga instrucciones y se ajuste a lo que preferimos (SFT + RLHF/DPO). (Cap. 27)
  • Aliasing. Cuando un par de RoPE completa una vuelta y deja de distinguir distancias → pérdida de resolución posicional. (Cap. 14)
  • Alucinación. Salida fluida, segura y falsa (o no respaldada). En parte intrínseca al predecir el siguiente token. (Cap. 40)
  • ANN (vecinos aproximados). Búsqueda de los vectores más cercanos sin comparar contra todos (HNSW, FAISS). (Cap. 31)
  • Atención. Mezcla ponderada en que cada token recoge información de los demás según afinidad (Q·K). (Cap. 4)
  • Atención lineal. Sustituir el softmax por un núcleo que permite reasociar el cálculo → coste O(n); pierde recuerdo. (Cap. 34)
  • Atlas γ. γ medido en 42 modelos de 4 familias: una coordenada cross-arquitectura. (Cap. 16)

44.2 B

  • Batching continuo. Agrupar peticiones a nivel de iteración (meter/sacar cada paso) → mantiene la GPU llena. (Cap. 36)
  • Beam search. Decodificación que mantiene varias hipótesis; buena para tareas cerradas. (Cap. 12)
  • BPE (Byte-Pair Encoding). Tokenización que fusiona los pares de símbolos más frecuentes. (Cap. 2)
  • Bradley-Terry. Pérdida del modelo de recompensa: ordena respuestas según preferencias humanas. (Cap. 27)

44.3 C

  • Cabeza (head). Una de las atenciones paralelas de la multi-cabeza; suele especializarse. (Cap. 5)
  • Cabeza de inducción. Cabeza que completa patrones “AAB”; mecanismo candidato del in-context learning. (Cap. 5, 30)
  • Caché KV. Memoria de claves/valores ya calculados para no recomputarlos al generar. (Cap. 12, 20)
  • CKA inter-capa. Similitud representacional entre capas; su re-ascenso predice el grokking (resultado nuestro). (Cap. 24)
  • Chain-of-Thought (CoT). Pedir pasos de razonamiento intermedios; emergente con la escala. (Cap. 30)
  • Chunking. Trocear documentos en fragmentos antes de indexarlos para RAG. (Cap. 31)
  • CLIP. Encoders de imagen y texto entrenados contrastivamente en un espacio compartido → zero-shot. (Cap. 33)
  • Conexión residual. Sumar la entrada a la salida de un bloque; mantiene vivo el gradiente. (Cap. 7)
  • Contrastivo (aprendizaje). Acercar pares positivos y alejar negativos en el espacio de embeddings. (Cap. 26)
  • Cuantización. Representar pesos/activaciones con menos bits (escala + zero-point). (Cap. 35)

44.4 D

  • D_f (ventana de KV). Número de tokens de KV que de verdad hace falta conservar, derivado de γ. (Cap. 20)
  • Decode. Fase de generación token a token; bandwidth-bound; cuello de botella del serving. (Cap. 36)
  • Decodificación restringida. Enmascarar tokens inválidos + renormalizar → formato garantizado (no verdad). (Cap. 29)
  • Decodificación especulativa. Un borrador propone tokens y el modelo grande los verifica en paralelo (misma salida, más rápido). (Cap. 29)
  • Destilación. Entrenar un alumno pequeño para imitar los objetivos suaves de un maestro grande. (Cap. 35)
  • DPO. Optimización directa de preferencias: el objetivo de RLHF sin RL ni modelo de recompensa. (Cap. 27)

44.5 E

  • Embedding. Vector que representa el significado de un token o texto. (Cap. 3, 26)
  • Encoder / decoder. Codificador bidireccional (entender) / decodificador causal (generar). (Cap. 10)
  • Erratum. Error propio, marcado, corregido y re-demostrado (p. ej. C_V /4→/12). (Cap. 22, 38)
  • Escalado 1/√d_k. Factor que evita que los productos escalares saturen el softmax. (Cap. 4)

44.6 F

  • FFN (feed-forward). Red que procesa cada token por separado; memoria clave-valor. (Cap. 6)
  • FlashAttention. Atención exacta sin materializar la matriz n×n (tiling + online softmax). (Cap. 34)
  • Flujo residual. El “carril” compartido del que cada componente lee y escribe; canal de comunicación. (Cap. 3, 37)
  • Folclore. Creencia popular pero no justificada (o ya contradicha). (Cap. 38)
  • Fraccionario (orden). Lente que lee la atención como difusión de Lévy de orden (γ−1)/2. (Cap. 23)

44.7 G

  • γ (gamma). Exponente de decaimiento de la atención con la distancia: \(A(d)\propto d^{-\gamma}\). (Cap. 15)
  • γ_Padé. Predicción de γ desde la geometría (θ, T), sin entrenar. (Cap. 15)
  • GQA / MQA / MLA. Compartir K/V entre cabezas para reducir la caché (no el cómputo). (Cap. 18)
  • Grokking. Generalización tardía y repentina tras memorizar. (Cap. 24)

44.8 H

  • Hagedorn (γ=1). La frontera de fase entre mirar lejos (Fase A) y concentrar (Fase B). (Cap. 21)
  • HBM / SRAM. Memoria grande y lenta / minúscula y rápida de la GPU; su tráfico domina la atención. (Cap. 34)

44.9 I — L

  • In-context learning (ICL). Aprender una tarea de ejemplos en el prompt, sin actualizar pesos. (Cap. 30)
  • Jailbreak. Prompt que sortea el entrenamiento de seguridad. (Cap. 40)
  • LayerNorm / RMSNorm. Normalización que reescala la activación → estabilidad. (Cap. 7)
  • Leyes de escala. La pérdida baja de forma predecible con tamaño, datos y cómputo (Kaplan, Chinchilla). (Cap. 11, 25)
  • Logit lens. Proyectar una activación intermedia por la salida para leer la “apuesta” del modelo por capa. (Cap. 37)
  • LoRA / QLoRA. Delta de rango bajo (\(B{=}0\) al inicio, fusionable) / sobre base de 4 bits. (Cap. 28)
  • “Lost in the middle”. Los modelos usan peor la información del medio del contexto. (Cap. 31)

44.10 M — N

  • Máscara causal. Impide que un token mire a los futuros (generación). (Cap. 9, 10)
  • Memory-bound. Limitado por mover datos, no por calcular (caso de la atención). (Cap. 34)
  • Multi-cabeza. Varias atenciones en paralelo + proyección de salida \(W^O\). (Cap. 5)
  • Numerología. Una fórmula que encaja con los datos sin mecanismo que lo explique. (Cap. 38)

44.11 O — P

  • Online softmax. Calcular el softmax por bloques con máximo y suma móviles. (Cap. 34)
  • PagedAttention. Gestionar la caché KV en bloques estilo memoria virtual → cero desperdicio. (Cap. 34, 36)
  • PEFT. Fine-tuning eficiente: congelar la base y entrenar pocos parámetros. (Cap. 28)
  • Perplejidad. \(e^{\text{pérdida}}\): “entre cuántos tokens duda” el modelo. (Cap. 11)
  • Poda (pruning). Quitar pesos (estructurada = bloques; no estructurada = sueltos). (Cap. 35)
  • Polisemanticidad. Una neurona dispara por muchos conceptos dispares (causada por superposición). (Cap. 37)
  • Prefill. Fase que procesa el prompt entero en paralelo; compute-bound; marca el TTFT. (Cap. 36)
  • Prompt injection. Instrucciones hostiles coladas como datos; se agrava en agentes. (Cap. 30, 40)

44.12 Q — R

  • QK / OV (circuitos). QK decide dónde atender; OV decide qué escribir. (Cap. 37)
  • RAG. Recuperar evidencia y condicionar la generación sobre ella (memoria no-paramétrica). (Cap. 31)
  • ReAct. Bucle de agente: Pensamiento → Acción → Observación. (Cap. 32)
  • Recibo. La prueba que respalda una afirmación: Lean (álgebra) o datos. (Cap. 38)
  • RLHF. Alinear con un modelo de recompensa + PPO, con correa KL. (Cap. 27)
  • RoPE. Codificación posicional rotatoria: rota pares de dimensiones según la posición. (Cap. 8)

44.13 S — Z

  • SAE (autoencoder disperso). Diccionario que descompone activaciones en rasgos monosemánticos; deshace la superposición. (Cap. 37)
  • Self-consistency. Muestrear varias cadenas de razonamiento y votar la mayoritaria. (Cap. 30)
  • Sumidero (attention sink). Masa de atención que se acumula en pocos tokens de baja información (BOS). (Cap. 17)
  • Superposición. Guardar más rasgos que dimensiones en direcciones casi ortogonales. (Cap. 37)
  • Temperatura (τ). Reescala los logits antes del softmax: baja = prudente, alta = aventurado. (Cap. 12, 29)
  • Token. Identificador entero de un trozo de texto (subpalabra). (Cap. 2)
  • TTFT / TPOT. Tiempo al primer token (prefill) / tiempo por token de salida (decode). (Cap. 36)
  • Verificado / derivado. Afirmación con recibo (prueba formal o datos reproducibles). (Cap. 38)
  • ViT (Vision Transformer). Transformer sobre parches de imagen tratados como tokens. (Cap. 33)
  • Z (función de partición). \(Z=\mathrm{Li}_\gamma(e^{-\lambda})\), en la lente termodinámica. (Cap. 21)

Siguiente referencia (R4): cómo medir tu propio γ y los datasets abiertos en Hugging Face para reproducirlo.