47 R10 · Soluciones de los ejercicios

Qué es. Soluciones orientativas a los ejercicios de cada capítulo —concisas, para comprobar tu razonamiento, no para sustituirlo—. Muchas preguntas admiten más de una respuesta correcta; aquí va la línea principal. Donde un capítulo es honesto sobre un límite (γ_Padé aproximado, D_f sin validar, Lean prueba álgebra no realidad…), la solución lo respeta.

47.1 Cap. 1 · Panorama

Paralelizar las RNN. Una GPU brilla haciendo miles de cálculos a la vez, pero una RNN procesa la secuencia palabra a palabra, donde cada paso depende del anterior. Esa dependencia en serie impide repartir el trabajo entre los muchos núcleos de la GPU, de modo que el hardware queda infrautilizado y el entrenamiento se vuelve lento. En la práctica eso limitaba el tamaño de los modelos y la cantidad de datos con que podían entrenarse.
Coste de conectar palabras lejanas. Conectar cualquier par de palabras “en un solo paso” exige comparar cada token con todos los demás, así que el número de comparaciones crece con el cuadrado de la longitud (\(\sim n^2\)). Con miles de palabras eso dispara el cómputo y la memoria, y es justamente lo que hace caro el contexto largo. Es el problema central que se aborda en la Parte II.

47.2 Cap. 2 · Tokens

A mano. Tras es, est y lo, los símbolos vivos son lo w (en low×5 y lower×2 = 7), n e, n ew/w est, etc. El par más frecuente es lo w con 7 apariciones, así que la siguiente fusión es low; tras ella, el par low e (de lower×2) y n e (de newest×6) compiten, y gana n e → ne con 6. En resumen: las dos fusiones que tocan son low y luego ne, siempre eligiendo el par adyacente más frecuente.
El espacio. "the", " the" y " the" dan listas distintas porque el espacio inicial forma parte del token: BPE a nivel de bytes trata the, the (espacio + the) y the (doble espacio + the) como piezas diferentes con números distintos. Esto ocurre porque la pre-tokenización adjunta el espacio previo a la palabra, de modo que una misma palabra a principio o en medio de frase se codifica de forma diferente.
El impuesto multilingüe. “the house is big” suele gastar menos tokens que “la casa es grande”, porque los tokenizadores se entrenan sobre todo con inglés y tienen piezas más largas y eficientes para ese idioma. El español (como otros idiomas) acaba troceándose en más subpalabras, lo que consume más contexto para decir lo mismo. Por eso una traducción “de igual longitud” puede costar bastante más presupuesto de tokens.
Sin desconocidos. Un tokenizador a nivel de bytes parte de los 256 bytes posibles del UTF-8, y cualquier texto del mundo —cualquier idioma, emoji o símbolo— se puede expresar como secuencia de esos 256 bytes. Por tanto siempre hay piezas base para representarlo y nunca hace falta un token <UNK>. Un tokenizador a nivel de palabra, en cambio, tiene un vocabulario finito: si llega una palabra que no estaba en él, no tiene número para ella y debe marcarla como desconocida.

47.3 Cap. 3 · Embeddings y flujo residual

La tabla E. La matriz de embeddings tiene tamaño vocabulario × d_model, así que con 50.000 tokens y d_model = 768 son \(50000 \times 768 = 38\,400\,000\) parámetros (unos 38,4 millones). Con d_model = 4096 serían \(50000 \times 4096 = 204\,800\,000\), es decir, unos 204,8 millones. Solo la tabla de embeddings ya supone una parte grande del modelo.
Estático vs. contextual. “banco” tiene un solo embedding de entrada porque su token-ID siempre selecciona la misma fila de E, sin saber aún en qué frase aparece. Pero al atravesar las capas, la atención le suma información de las palabras vecinas (“río” o “central”), de modo que el vector se contextualiza y acaba siendo distinto en cada frase. La contextualización no vive en E, sino en lo que las capas escriben encima en el flujo residual.
Aditivo. Sumar (\(x \leftarrow x + \text{FFN}(x)\)) en lugar de reemplazar significa que cada capa añade su contribución sin borrar lo que ya había. Así la información de las capas anteriores persiste a lo largo del flujo residual y puede recombinarse más adelante, en vez de perderse. Además, esta escritura aditiva (heredada de las ResNets) deja que la señal y el gradiente atraviesen muchas capas sin diluirse, lo que permite entrenar modelos muy profundos.
Direcciones. Esperaríamos vec(Madrid), porque la resta vec(París) − vec(Francia) aísla la dirección “capital de”, y al sumarla a vec(España) se llega a la capital correspondiente. Es el mismo tipo de aritmética de analogías que rey − hombre + mujer ≈ reina: las relaciones (aquí “país → su capital”) viven como direcciones en el espacio de embeddings. Es aproximado, no exacto, pero captura la regularidad geométrica.

47.4 Cap. 4 · La atención

A mano. Con \(q_2=[0,2]\), las puntuaciones \(q_2\cdot k_j\) son \(0,\,2,\,2\) (pues \(k_1=[1,0]\), \(k_2=[0,1]\), \(k_3=[1,1]\)). Tras escalar y aplicar softmax, los tokens 2 y 3 reciben pesos altos y casi iguales, mientras que el token 1 queda con peso bajo. La salida pasa a estar dominada por \(v_2\) y \(v_3\), porque ahora la consulta apunta a la segunda dimensión, que es la que anuncian las claves \(k_2\) y \(k_3\).
El escalado. Para \(d=4,64,4096\) se observa que la desviación típica de \(QK^\top\) sin escalar crece aproximadamente como \(\sqrt{d}\) (≈2, ≈8, ≈64), porque el producto escalar es una suma de \(d\) términos cuya varianza crece con \(d\). Con el factor \(1/\sqrt d\), la desviación típica se mantiene en torno a 1 sin importar la dimensión. Eso confirma que el escalado devuelve los logits a varianza unidad y evita la saturación del softmax.
Saturación. Multiplicar los logits por 10 antes del softmax agudiza las diferencias: el peso se concentra casi entero en el token de mayor puntuación y los demás se van casi a 0, es decir, \(A\) se vuelve casi one-hot. Es el efecto de bajar la “temperatura”: logits más grandes equivalen a una distribución más fría y picuda; logits más pequeños, a una más caliente y uniforme.
Fidelidad. Toma 2 tokens donde \(q_1\cdot k_2 \gg q_1\cdot k_1\), de modo que \(\alpha_{12}\approx 0.99\), pero con un valor \(v_2\) de norma minúscula (p. ej. \(v_2=[0.001,0]\)) frente a un \(v_1\) grande. Aunque el token 1 “atiende” casi todo a 2, la salida \(0.99\,v_2 + 0.01\,v_1\) apenas depende de \(v_2\) porque su magnitud es despreciable; cambiar \(v_2\) casi no altera la salida. Esto ilustra que el peso de atención no equivale a influencia real: un token muy atendido puede aportar poco si su \(\lVert v_j\rVert\) es pequeño.

47.5 Cap. 5 · Atención multi-cabeza

El reparto. Como d_k = d_model / h, con d_model = 1024 y h = 16 cabezas sale d_k = 1024/16 = 64. Con h = 8 cabezas, d_k = 1024/8 = 128. Más cabezas implica trozos por cabeza más pequeños, y menos cabezas, trozos más grandes.
Coste. No cuestan 12 veces más porque cada cabeza no trabaja sobre el vector completo, sino sobre un trozo de tamaño d_k = d_model/12. La suma del trabajo de las 12 cabezas sobre sus trozos pequeños equivale aproximadamente al de una sola atención sobre el vector entero. El multi-cabeza reparte el mismo presupuesto de cómputo entre varias miradas, en vez de añadir coste.
Induction head. Predeciría perro. Lo hace en dos pasos: primero empareja prefijos, buscando hacia atrás la aparición anterior del token actual gato; y luego copia, subiendo la probabilidad del token que siguió la vez anterior (perro). Es el patrón [A][B] … [A] → [B]: “la última vez que vi gato, le seguía perro, así que predigo perro”.
Poda. No, no significa que el multi-cabeza sea inútil. Que muchas cabezas se puedan podar en inferencia con poca pérdida solo revela que son parcialmente redundantes una vez entrenado el modelo, y que unas pocas especializadas hacen el trabajo pesado. Pero esas miradas redundantes podrían haber sido necesarias durante el entrenamiento para que el modelo descubriera y consolidara los roles útiles; poder retirarlas después no implica que sobraran antes.

47.6 Cap. 6 · FFN

La no linealidad. Sin \(\sigma\), la composición \(W_2(W_1 x)\) es \((W_2 W_1)\,x\), es decir, el producto de dos matrices es otra matriz \(W = W_2 W_1\): una única transformación lineal. El modelo pierde la capacidad de aprender funciones no lineales y de actuar como detector “todo o nada” (umbral), quedando reducido a combinaciones lineales de la entrada.
La cuenta. Con \(d_{model}=1024\) y expansión 4× se tiene \(d_{ff}=4096\). Entonces \(W_1\) es \(1024\times 4096 \approx 4{,}19\) millones de parámetros, y \(W_2\) es \(4096\times 1024 \approx 4{,}19\) millones más. En total la FFN ronda los \(8{,}4\) millones de parámetros (ignorando sesgos).
Reparto de trabajo. (a) La atención: enlazar “ella” con su referente exige mirar y mover información entre tokens. (b) La FFN: activar el concepto “capital de país” es procesamiento token a token sobre el contenido almacenado. (c) La atención: promediar/mezclar información de tokens lejanos es exactamente su función.
Editar un hecho. Las FFN intermedias actúan como memoria asociativa clave-valor donde residen los hechos concretos del mundo, así que ahí se puede modificar un dato específico sin tocar el resto. La capa de embeddings solo guarda el significado léxico genérico de cada token, no las relaciones factuales, por lo que editarla no cambiaría el hecho almacenado.

47.7 Cap. 7 · Residual y normalización

Sumar vs reemplazar. Primera razón: la suma crea un “atajo” (la conexión residual) por el que el gradiente fluye sin atenuarse, permitiendo entrenar redes muy profundas sin que la señal se desvanezca. Segunda razón: cada subcapa solo necesita aprender un ajuste incremental sobre la representación existente, en vez de reconstruir todo el vector desde cero, lo que facilita el aprendizaje y preserva la información ya acumulada.
LayerNorm vs RMSNorm. La diferencia esencial es que LayerNorm resta la media antes de dividir por la desviación (centra y escala), mientras que RMSNorm omite el centrado y solo divide por la raíz del valor cuadrático medio. RMSNorm es así más barata y, en la práctica, igual de efectiva.
Pre vs Post. Pre-LN: \(x \leftarrow x + \mathrm{Subcapa}(\mathrm{Norm}(x))\). Post-LN: \(x \leftarrow \mathrm{Norm}(x + \mathrm{Subcapa}(x))\). La Post-LN necesita warmup del learning rate para estabilizarse; la Pre-LN es estable desde el inicio y normalmente no lo requiere.
Colapso. Sin conexiones residuales, al apilar muchas capas de pura atención las representaciones de los tokens se promedian una y otra vez y convergen entre sí: tienden todas al mismo vector. Es el fenómeno de colapso de rango (oversmoothing), que destruye la distinción entre tokens al aumentar la profundidad.

47.8 Cap. 8 · Posición y RoPE

Ceguera al orden. La atención es una operación simétrica respecto a la permutación de tokens: trata la entrada como un conjunto, no como una secuencia. Sin información de posición, “el perro muerde al hombre” y “el hombre muerde al perro” contienen exactamente los mismos tokens, así que producen idénticos productos escalares y, por tanto, el mismo resultado.
Relativa gratis. RoPE rota cada vector un ángulo proporcional a su posición; al hacer el producto escalar entre \(q\) en la posición \(m\) y \(k\) en la posición \(n\), las rotaciones se combinan y solo sobrevive el ángulo relativo \(m-n\). Igual que con dos manecillas de reloj, lo que importa para su producto es el ángulo entre ellas, no dónde apunta cada una en absoluto.
θ y el alcance. Subir la base \(\theta\) hace que las frecuencias de giro sean más bajas (rotaciones más lentas) para cada par de dimensiones. Al girar más despacio, los ángulos tardan más en repetirse, de modo que el modelo distingue bien distancias mayores: aumenta el alcance efectivo a costa de menos resolución fina en distancias cortas.
q, k, ¿y v? RoPE aplica su rotación solo a las consultas \(q\) y las claves \(k\), no a los valores \(v\). Tiene sentido porque la posición debe influir en cómo se calcula la afinidad (el producto \(q\cdot k\) que decide a quién atender), pero no en el contenido que se transporta una vez decidida la atención, que es lo que llevan los valores.

47.9 Cap. 9 · El bloque

El patrón. Las dos líneas Pre-LN son: \(x \leftarrow x + \mathrm{Atención}(\mathrm{Norm}(x))\) y luego \(x \leftarrow x + \mathrm{FFN}(\mathrm{Norm}(x))\). La primera mezcla información entre tokens (comunicación); la segunda procesa cada token por separado (cómputo). Ambas suman su resultado a la corriente residual.
La máscara. Durante el entrenamiento un modelo generativo predice el siguiente token, así que debe ocultar las posiciones futuras: si pudiera verlas, copiaría la respuesta directamente y “haría trampa”. Sin máscara aprendería a mirar adelante en lugar de a predecir, y en inferencia (donde el futuro no existe) fracasaría por completo.
Profundidad. Las cabezas de inducción (Cap. 5) necesitan al menos dos capas: una primera cabeza copia información del token previo y una segunda usa esa información para buscar y completar el patrón “… A B … A → B”. Con una sola capa no puede componerse esa operación en dos pasos, así que la habilidad no existe.
El recorrido. El orden es: tokenizar · embeddings · añadir posición · N bloques · desembeber.

47.10 Cap. 10 · Arquitecturas

El interruptor. El cambio principal es la máscara de atención: pasar de atención bidireccional (cada token ve todo el contexto) a atención causal (cada token solo ve el pasado). Esa máscara, junto al objetivo de predecir el siguiente token, convierte un modelo de comprensión en uno de generación.
¿Por qué BERT no escribe un ensayo? BERT usa atención bidireccional y se entrena con masked language modeling: rellenar huecos viendo el contexto a ambos lados. No aprende a continuar texto token a token de izquierda a derecha, así que carece del mecanismo autorregresivo necesario para generar una secuencia larga y coherente.
Atención cruzada. En un traductor T5, el decodificador mira al codificador: cada posición que se está generando consulta (vía cross-attention) las representaciones de toda la frase de entrada producidas por el encoder. Sirve para alinear lo que se genera con el contenido del texto origen.
Elegir herramienta. (a) Clasificar reseñas: un modelo encoder bidireccional tipo BERT, que comprende el texto completo para etiquetarlo. (b) Chatbot: un modelo decoder autorregresivo tipo GPT, que genera respuestas. (c) Traducir inglés→español: una arquitectura encoder-decoder tipo T5, que lee la frase entera y la regenera en el otro idioma.

47.11 Cap. 11 · Entrenamiento

Autosupervisión. No hacen falta etiquetas humanas porque la “respuesta correcta” es el propio texto: dado un fragmento, el siguiente token ya está escrito en el corpus. El modelo simplemente oculta ese token, intenta predecirlo y compara con el que realmente venía. Así cualquier texto crudo se convierte en millones de ejemplos etiquetados gratis.
Perplejidad. Una perplejidad de 1 significa que el modelo está perfectamente seguro y siempre acierta el siguiente token (no tiene ninguna duda). Una perplejidad igual al tamaño del vocabulario significa lo contrario: el modelo reparte la probabilidad de forma uniforme entre todas las palabras, es decir, no ha aprendido nada y elige al azar. La perplejidad se interpreta como “entre cuántas opciones equiprobables duda el modelo de media”.
Chinchilla. Según Chinchilla, probablemente estés gastando demasiado cómputo en parámetros y muy poco en datos: un modelo enorme entrenado con pocos tokens queda infraentrenado. Con un presupuesto fijo conviene equilibrar tamaño y datos (aproximadamente en proporción, unos 20 tokens por parámetro). Un modelo más pequeño pero alimentado con más tokens rendiría mejor con el mismo cómputo.
Warmup. Arrancar con un learning rate alto desde el paso 1 puede romper el entrenamiento porque los pesos están recién inicializados y los primeros gradientes son ruidosos y grandes. Un paso enorme en esa fase puede disparar las activaciones o las normas y provocar divergencia (pérdida que explota a NaN). El warmup sube el learning rate poco a poco para que el modelo se estabilice antes de dar pasos grandes.

47.12 Cap. 12 · Inferencia

Greedy. Elegir siempre la palabra más probable en cada paso es una decisión local que puede cerrar caminos globalmente mejores. Por ejemplo, un primer token muy probable (“El”) puede llevar a continuaciones mediocres, mientras que un segundo token algo menos probable abriría una frase de probabilidad conjunta mayor. Greedy no puede deshacer esa decisión, así que se queda atrapado en un óptimo local en lugar de la frase más probable.
Temperatura. Para un asistente de código fiable usaría una T baja (cercana a 0), porque quiero salidas deterministas, correctas y reproducibles, sin invenciones. Para un generador de ideas creativas usaría una T alta (p. ej. 0,8–1,2), que aplana la distribución y permite explorar opciones menos probables y más variadas. La temperatura es, en esencia, la perilla entre “seguro y repetitivo” y “diverso pero arriesgado”.
Top-p adaptativo. Top-p (núcleo) acumula candidatos hasta sumar una masa de probabilidad \(p\); cuando el modelo está seguro, un solo token ya concentra casi toda la masa, así que basta con poquísimos candidatos. Cuando duda, la probabilidad está repartida y hacen falta muchos tokens para llegar a \(p\). Su ventaja sobre top-k es que adapta el número de candidatos a la confianza del modelo, en vez de fijar un \(k\) rígido que sobra cuando hay certeza y se queda corto cuando hay duda.
KV-cache. La generación se ralentiza y consume más memoria porque, a cada token nuevo, la atención debe mirar a todos los tokens anteriores, y ese contexto crece linealmente con el texto. El KV-cache guarda las claves y valores ya calculados para no recomputarlos, lo que ahorra cómputo. El intercambio es claro: gasta memoria (que crece con la longitud) para ganar velocidad por token.

47.13 Cap. 13 · Leer mapas de atención

No hay “un” mapa. Cada cabeza de cada capa produce su propio mapa de atención, así que con 32 capas y 32 cabezas hay \(32 \times 32 = 1024\) mapas distintos por frase. No existe “el” mapa del modelo, sino más de mil vistas diferentes. Por eso hablar de “lo que mira el modelo” como una sola imagen es una simplificación engañosa.
El sumidero. Como cada fila de atención debe sumar 1 (es una distribución de probabilidad), una cabeza que en realidad no “quiere” atender a nada concreto tiene que descargar esa masa en algún sitio. El primer token suele ser ese vertedero estable, de modo que aparece una columna brillante sobre él. Ese brillo es un artefacto de la normalización, no señal de que el primer token importe.
Fidelidad. No es válido porque un mapa de atención muestra correlación, no causa: que una cabeza atienda a Y no demuestra que esa atención sea la razón de la predicción X. La predicción surge de la interacción de muchas cabezas, capas y los valores (V), no solo de los pesos de atención de una cabeza. Sin una intervención (p. ej. ablacionar esa cabeza) no se puede afirmar el “porque”.
La U. La atención promedio frente a la distancia tiene forma de U (o J): un pico muy alto en distancia casi nula y otro en las posiciones iniciales, con un valle intermedio. El brazo izquierdo, sobre los primeros tokens, es el “sumidero”. El descenso suave hacia la derecha, a distancias crecientes, es la “cola” cuyo decaimiento mediremos con el exponente γ.

47.14 Cap. 14 · Aliasing y las tres escalas de RoPE

Longitud de onda. La frecuencia es \(\omega_i = \theta^{-2i/d}\), así que el índice \(i=0\) gira más rápido (su \(\lambda_0 = 2\pi \approx 6\) posiciones) y el \(i=30\) gira lentísimo (\(\lambda \propto \theta^{2i/d}\), enorme). Por tanto, el par \(i=0\) es el que más rápido gira y el que aliasa antes, al completar su vuelta entera enseguida.
Aliasing. Como la rueda de carreta que en el cine parece girar al revés o quieta, un par de RoPE “muestrea” el ángulo y, pasada una vuelta completa (\(\lambda\)), no puede saber si han pasado \(r\) posiciones o \(r+\lambda\): ambas dan exactamente el mismo ángulo. Al coincidir el ángulo, coincide el producto escalar, así que ese par no distingue las dos distancias. Por eso un par no puede separar distancias que difieren en justo una longitud de onda.
Las escalas. \(T_{\rm max} = 2\pi\theta\) (≈ 62 832 con θ=10⁴) es la longitud de onda del par más lento, es decir, la distancia máxima que la geometría puede codificar. Ahí \(n_{\rm active}(d)\) cae a cero: ningún par conserva ya señal posicional inequívoca, porque todos han aliasado. Más allá de \(T_{\rm max}\) la posición se vuelve completamente ambigua.
Honestidad. Decimos “acota la resolución” y no “impone el decaimiento” porque Round and Round We Go demostró que con consultas y claves reales RoPE no garantiza un decaimiento monótono; de hecho los modelos usan las bajas frecuencias para emparejar contenido casi sin importar la posición. Lo que la geometría sí hace es marcar qué distancias pueden distinguirse, un límite superior de resolución. Cómo el modelo use cada banda dentro de ese límite es decisión aprendida, no un decreto geométrico.

47.15 Cap. 15 · La ley de decaimiento A(d) ∝ d^−γ

La pendiente. La recta con pendiente \(-0{,}4\) mira más lejos, porque cae más despacio y conserva más masa de atención a distancia; al ser \(\gamma < 1\), es Fase A. La de pendiente \(-1{,}3\) cae rápido y concentra la atención cerca; al ser \(\gamma > 1\), es Fase B. En log-log, menor pendiente (en valor absoluto) = cola más pesada = horizonte más largo.
Máxima entropía. Lo único que la geometría de RoPE fija en promedio es \(\mathbb{E}[\log d] = \text{constante}\), un “presupuesto” de log-distancia. La distribución más honesta es la que asume lo mínimo compatible con ese único dato, sin inventar sesgos extra; y resulta que la única que maximiza la entropía con esa restricción es la ley de potencia \(p^*(d) \propto d^{-\gamma}\), con \(\gamma\) como multiplicador de Lagrange. Una gaussiana asumiría una escala y una concentración que nadie nos ha dado, así que sería menos honesta.
Predicción honesta. \(\gamma_{\rm Padé}\) solo captura \(\gamma_{\rm geom}(\theta, T)\), así que la diferencia entre el 0,7 predicho y el 0,55 medido vive en los otros términos de la descomposición \(\gamma_{\rm obs} = \gamma_{\rm geom} + \gamma_{\rm train} + \gamma_{\rm arch} + \varepsilon\). Que el γ medido sea menor (mira más lejos de lo que predice la geometría sola) apunta sobre todo a \(\gamma_{\rm train}\) —la formación de induction heads a partir de los datos— y en parte a \(\gamma_{\rm arch}\). Es coherente con que \(\gamma_{\rm Padé}\) acierte el centro pero con una mediana de error de ~20–22% en Fase A.
Herramienta. En modo Profile, tafagent te devuelve tres cosas: el \(\gamma_{\rm Padé}\) predicho desde solo θ y T, su comparación con el \(\gamma\) observado del modelo, y el régimen (Fase A o Fase B) junto con el horizonte efectivo en que cae ese modelo. Es la teoría del capítulo convertida en una herramienta de perfilado.

47.16 Cap. 16 · El atlas γ: el decaimiento medido en 42 modelos

Leer el mapa. Que 38 de 42 modelos tengan \(\gamma<1\) significa que los transformers entrenados tienden a mirar lejos, no a concentrarse cerca. Un \(\gamma<1\) implica cola pesada: la atención decae despacio con la distancia y reparte peso también a tokens lejanos. El patrón sugiere que aprovechar contexto amplio es la norma a la que tienden los modelos dejados a su aire, no la excepción.
La mediana. Lo llamativo es que los modelos no se reparten al azar por todo el rango, sino que se agolpan justo por debajo de \(\gamma=1\) (mediana \(\approx0{,}885\)). Es como si el entrenamiento los empujara hasta el borde del régimen de “mirar lejos” sin llegar a cruzarlo hacia la concentración. Esa cercanía no parece casual y enlaza con la transición de Hagedorn del Cap. 21.
Honestidad. Comparar el \(\gamma\) crudo de dos modelos distintos mezcla varios factores a la vez —base \(\theta\), datos de entrenamiento y arquitectura—, así que la diferencia no se puede atribuir limpiamente a la arquitectura. El experimento que sí aísla la causa es el control within-model: tomar un mismo modelo y variar una sola palanca (p. ej. reescalar \(\theta\)), como en el Cap. 17. El atlas describe el paisaje, pero no aísla causas por sí solo.
Ajuste. Tomaría con bastante menos confianza el \(\gamma\) del modelo con \(R^2=0{,}85\): ahí la ley \(A(d)\propto d^{-\gamma}\) ajusta peor la atención real, así que \(\gamma\) es un resumen más grueso. Con \(R^2=0{,}98\) el exponente describe casi perfectamente los datos y es un valor fiable. No descartaría el de \(0{,}85\), pero lo trataría como aproximado y vigilaría la columna \(R^2\) modelo a modelo.

47.17 Cap. 17 · Sumideros de atención y concentración

Independencia. Si concentración y decaimiento fueran el mismo fenómeno, al subir \(\gamma\) de \(0{,}75\) a \(1{,}0\) la masa de sumidero debería haberse movido de forma apreciable. Lo que pasó en realidad es que se quedó plana (de \(0{,}371\) a \(0{,}387\), \(\approx0{,}38\)) mientras \(\gamma\) recorría casi todo su rango. Mover una palanca cambió un mecanismo muchísimo y dejó el otro intacto: son independientes (\(\gamma \perp\) sumidero).
El control. Reescalar \(\theta\) dentro del mismo modelo mantiene fijo todo lo demás —pesos, datos, arquitectura—, de modo que cualquier cambio observado es causado por \(\theta\) y no por un factor cruzado. Comparar dos modelos distintos confunde \(\theta\), datos y arquitectura a la vez, así que no permite atribuir el efecto a una sola causa. Es la diferencia entre describir un paisaje (atlas, Cap. 16) y aislar una causa (experimento controlado).
Dos ejes. Una decisión que depende del sumidero: gestionar la concentración conservando unos pocos tokens iniciales al recortar contexto, como hace StreamingLLM, para no desestabilizar el softmax. Una decisión que depende de \(\gamma\): estimar el alcance efectivo del modelo y cuánto se puede comprimir su KV-cache (Cap. 20), que es un fenómeno posicional. Confundirlas lleva a “arreglar” una creyendo que arreglas la otra.
Honestidad. Dejamos explícitamente sin resolver si aparecen o desaparecen sumideros secundarios al barrer \(\theta\). La propia literatura señala que los modelos de \(\theta\) grande a veces carecen de ellos y que la causa de fondo sigue siendo una pregunta abierta. Tenemos el aparato para estudiarlo, pero lo marcamos como trabajo pendiente, no como resuelto.

47.18 Cap. 18 · Taxonomía de mecanismos de atención

Exacta vs aproximada. FlashAttention no es aproximada porque calcula la atención exacta, idéntica bit a bit a la densa; no sacrifica ninguna calidad. Lo que reorganiza es dónde y cómo se hace el cómputo en la jerarquía de memoria de la GPU: trocea la operación (tiling) y la recomputa para nunca materializar la matriz \(n\times n\). Es “eficiente” en memoria (\(O(n)\)) sin ser aproximada en el resultado.
KV vs cómputo. GQA no baja el coste de cómputo \(O(n^2)\): sigue siendo atención completa y exacta sobre todos los tokens. Lo que reduce es la memoria del KV-cache, haciendo que grupos de cabezas compartan las mismas claves y valores, de modo que se almacenan menos K/V distintos. Es un ahorro de memoria en inferencia, no de FLOPs de atención.
Qué ganó. Las atenciones lineales son más baratas en teoría (\(O(n)\)), pero cambian exactitud por velocidad, y a escala esa pérdida de calidad no compensa. La atención completa, bien calculada con FlashAttention, conserva toda la fidelidad sin pagar el sobrecoste de memoria que se temía. Por eso, pese a años de intentos, Performer, Linformer y similares no destronaron a la atención densa en la frontera.
Otra familia. Mamba no es una atención más barata: es un modelo de espacio de estados (SSM) con recurrencia en tiempo lineal y no tiene matriz de atención en absoluto. En vez de comparar cada token con los demás, propaga la información a través de un estado recurrente. Por eso se considera otra familia de arquitectura, y suele ganar terreno como híbrido (Jamba) más que como reemplazo puro.

47.19 Cap. 19 · Extensión de contexto largo

Por qué falla. Un modelo entrenado a 4k solo ha visto los ángulos de RoPE de las posiciones 0…4k; a 16k aparecen ángulos fuera de distribución que nunca observó. En ese régimen las puntuaciones de atención se disparan y el softmax se desestabiliza, produciendo texto degenerado (galimatías). Por eso la solución no es extrapolar a ángulos nuevos, sino remapear las posiciones largas dentro del rango de ángulos ya conocido.
NTK vs PI. PI comprime todas las posiciones por igual (divide por \(L/T\)), lo que estruja también las altas frecuencias y pierde resolución local fina. NTK-aware aplica un reescalado no uniforme de \(\theta\): preserva las altas frecuencias (lo local) y estira solo las bajas (lo lejano). Así respeta la información local que PI sacrifica, y a menudo funciona sin finetuning para factores pequeños (2–4×).
Auditar. Pediría una evaluación de recuperación a longitud completa, tipo passkey o needle-in-a-haystack, que compruebe si el modelo realmente localiza información concreta a lo largo de todo el contexto nominal. La perplejidad no basta porque la dominan los tokens locales y puede seguir baja mientras la recuperación ya ha colapsado. Además vigilaría el “lost in the middle”: la longitud usable suele ser menor que la nominal, así que un “1M” rara vez es 1M efectivos.
Honestidad. Presentamos la regla \(\gamma\) como no validada porque, aunque la geometría es sólida (reescalar \(\theta\) mueve \(\gamma\) de forma monótona y predecible), nuestra validación empírica con passkey quedó incompleta: el experimento crasheó por falta de memoria (CUDA-OOM) antes de cubrir las longitudes que discriminaban entre condiciones. Solo confirmamos lo esperado (el modelo nativo recupera dentro de su longitud de entrenamiento), no que la regla supere a YaRN. Este libro se niega a vender como hecho lo que aún es una hipótesis pendiente de reproducir.

47.20 Cap. 20 · Compresión de KV-cache en práctica

Compresibilidad. Comprimes mejor el de \(\gamma=1{,}3\). Con \(\gamma>1\) (Fase B, cola ligera) la atención decae rápido y una ventana finita pequeña captura casi toda la masa, así que puedes descartar gran parte del KV lejano sin perder apenas atención. Con \(\gamma=0{,}7\) (Fase A, cola pesada) la masa está repartida por todo el contexto y ninguna ventana finita la captura, por lo que es difícil de comprimir.
La frontera. \(\gamma=1\) separa los dos regímenes porque es donde cambia el comportamiento de la suma \(\sum d^{-\gamma}\). Con \(\gamma>1\) la serie converge: la cola más allá de \(D\) se encoge como \(D^{1-\gamma}\), así que basta una ventana finita (comprimible). Con \(\gamma<1\) la serie diverge como \(D^{1-\gamma}\): la masa se acumula sin límite con la distancia y no hay ventana finita que la capture (difícil). En \(\gamma=1\) diverge marginalmente, como \(\log D\), que es el caso frontera.
Honestidad. No afirmamos que \(D_f\) sea mejor que Ada-KV porque falta el cara a cara: hay que compararlos a memoria igualada en benchmarks de tarea (RULER, LongBench, NIAH), no solo contra heurísticas. Presentamos \(D_f\) como un presupuesto derivado y predictivo, sin parámetros, pero no demostrado superior. El experimento que faltaría es justo ese benchmark head-to-head contra los métodos principiados (Ada-KV, LAVa).
Masa ≠ fidelidad. Un token puede recibir poca masa de atención y aun así influir mucho en la salida si la norma de su vector de valor (V) es grande, porque la salida es una suma ponderada de los V. Así, descartarlo por baja masa —como haría \(D_f\)— degradaría la salida pese a “perder poca atención”. Es la crítica de Ada-KV: la masa es necesaria pero no suficiente para garantizar fidelidad.

47.21 Cap. 21 · Estructura de fases y la función de partición polilog

Función de partición. \(Z\) “censa” todos los estados del sistema, sumándolos pesados por \(e^{-E/T}\), de modo que los de baja energía cuentan más; en la atención es el normalizador del softmax mirado sobre la distancia. Conocer \(Z\) lo da todo —energía media, fluctuaciones, entropía— porque esas magnitudes salen de derivar \(Z\), así que tener la función de partición equivale a tener el comportamiento completo del sistema.
El polilog. Porque \(\mathrm{Li}_s(z)=\sum_{k\ge1} z^k/k^s\) es simplemente el normalizador genérico de cualquier distribución con cola de potencia (y en \(z=1\) es la zeta de Riemann). Que “\(Z\) sea un polilog” es matemática automática en cuanto la atención decae como \(d^{-\gamma}\): no se descubre nada, solo se nombra la función. El valor real estaría en mostrar que la distribución de distancia tiene de verdad esa forma y que \(\gamma\) es un parámetro de control medible.
Transición vs cruce. Una transición de fase es un cambio cualitativo y brusco al cruzar un valor crítico (el agua estancada en 100°C convirtiéndose en vapor); un cruce suave es un cambio gradual sin punto singular (la mantequilla que se ablanda). El vecino Kim (Kim 2026) reporta explícitamente que no observa divergencia power-law asintótica, “solo un cruce de tipo crítico”, es decir ve un cruce suave, no una transición verdadera.
Honestidad. Porque en \(N\) finito \(\mathrm{Li}_1\) diverge solo como \(\log N\), lo que se parece más a un cruce que a un salto, y nuestro vecino más cercano no observa divergencia. La susceptibilidad \(\chi=1/|\gamma-1|\) diverge formalmente en \(\gamma=1\), pero que eso sea una transición real o un mero cruce suave es una pregunta abierta. Por eso lo presentamos como “frontera candidata con evidencia”, no como transición demostrada.

47.22 Cap. 22 · El diccionario termodinámico

Fisher y C_V. La información de Fisher mide cuán bruscamente cambia la distribución al mover un parámetro (cuán fácil es “clavar” \(\gamma\) desde los datos), y la capacidad calorífica \(C_V\) mide el tamaño de las fluctuaciones de energía, \(\mathrm{Var}(E)/T^2\). Tiene sentido que sean la misma cosa (salvo un factor \(\gamma^2\)) porque ambas son la segunda derivada de la energía libre: sensibilidad estadística y fluctuación térmica son dos caras de la misma curvatura.
El recibo Lean. Una prueba en Lean (Mathlib) de \(\mathrm{Fisher}=C_V/\gamma^2\) demuestra que el álgebra de la identidad es correcta —que las fórmulas cuadran con residual cero, más allá de toda duda numérica—. Lo que no demuestra es que esa relación describa causalmente a un transformer: una cosa es “el álgebra es consistente” y otra muy distinta “esto es lo que hace el modelo”. Es un recibo de consistencia formal, no una afirmación empírica sobre la red.
El erratum. El coeficiente de \(C_V\) en \(\gamma=1\) pasó de \((\log N)^2/4\) a \((\log N)^2/12\), es decir un error de un factor 3 (el denominador se multiplica por 3). El valor correcto, \((\log N)^2/12\), lo confirman dos derivaciones independientes y lo verificamos en Lean.
Honestidad. Porque contar un error propio —marcarlo como erratum, corregirlo y volver a demostrarlo en Lean— enseña dónde nos equivocamos y cómo lo arreglamos, que es justo lo que distingue una fuente fiable. Un manual que solo cuenta sus aciertos no se puede auditar; uno que exhibe el factor 3 mal y su corrección demuestra la honestidad en vez de proclamarla, lo que lo hace más creíble, no menos.

47.23 Cap. 23 · La vista de transporte fraccionario

Hormiga vs albatros. La hormiga es difusión normal (browniana): muchos pasitos locales, territorio que crece despacio (\(\propto\sqrt{t}\)) y Laplaciano ordinario. El albatros es un vuelo de Lévy (difusión anómala): saltos raros y enormes de cola de potencia que dominan lo lejos que llega. El albatros es el que se parece a una atención con cola de potencia \(d^{-\gamma}\), porque su núcleo de saltos tiene esa misma forma power-law.
El orden. Con \(s=(\gamma-1)/2\): un modelo con \(\gamma=0{,}7\) da \(s=-0{,}15<0\), así que integra/suaviza (promedia de largo alcance). Uno con \(\gamma=1{,}3\) da \(s=0{,}15>0\), así que diferencia (amplifica lo fino, rugosidad). El cruce está en \(\gamma=1\) (\(s=0\), identidad), y la mayoría de los modelos entrenados caen en el lado del suavizado.
Honestidad. El marco fraccionario/Lévy no es nuestro: Fractional Neural Attention (FNA) (Qu et al. 2025) ya diseña la atención como un Laplaciano fraccionario con orden \(\alpha\) elegido a mano. Lo plausiblemente nuestro es leer el \(\gamma\) medido (del atlas, ligado a RoPE) como un orden fraccionario y ubicar los modelos entrenados en el régimen de suavizado —una afirmación descriptiva, no un operador nuevo—.
El caveat de Lévy. Un índice de Lévy real solo es estable en \(\alpha\in(0,2)\), y nuestro mapeo es \(\alpha=\gamma-1\). Para \(\gamma\) muy grande, \(\alpha=\gamma-1\) se sale por encima de 2, fuera del rango de los procesos \(\alpha\)-estables, y la analogía deja de tener sentido físico. Por eso la lente vale solo dentro de un régimen (\(\gamma\) no demasiado grande), no siempre; además \(\alpha=\gamma-1\) y \(s=(\gamma-1)/2\) son mapeos interpretativos, no teoremas.

47.24 Cap. 24 · Dinámica de entrenamiento y grokking

La curva. Fase 1: la precisión de train sube a ~100% pronto (memorización) mientras la de test sigue en el azar. Fase 2: una meseta larguísima (a menudo mil veces más pasos) con train clavado en 100% y test en el suelo. Fase 3: el salto, donde test se dispara a casi 100% mucho después. La lógica clásica del sobreajuste te diría que pares en la meseta, porque train ya está perfecto y test no mejora —parece que el modelo “ya terminó” y solo memoriza—.
No tan súbito. Según Nanda (Nanda et al. 2023), durante la meseta se está formando gradualmente el circuito que de verdad generaliza —en la suma modular, un algoritmo de Fourier que convierte “sumar” en “girar”—. El salto de test parece repentino porque solo se vuelve visible en la métrica cuando ese circuito, que llevaba rato cocinándose, por fin pesa más que la memorización y esta se retira (cleanup); la brusquedad de la curva es un artefacto del cuándo, no del mecanismo.
El motor. En Omnigrok (Liu et al. 2022), frente a la norma de los pesos la pérdida de train tiene forma de “L” (muchas normas memorizan bien) y la de test forma de “U” (solo generaliza una franja estrecha de norma pequeña); de ahí el mecanismo “LU”. El weight decay penaliza los pesos grandes y arrastra lentamente la norma desde la zona memorizadora (alta) hacia el mínimo generalizador (baja), y el grok ocurre cuando ese viaje se completa. Si el weight decay es insuficiente, el arrastre no llega y muchos modelos nunca generalizan: se quedan en la meseta para siempre.
Honestidad I. Porque predecir el grokking ya tiene trabajo dedicado —p. ej. Early-Warning Signals of Grokking (Xu 2026) y el colapso de entropía espectral (Khanh et al. 2026)—, así que afirmar primacía sería falso. Nuestra aportación es una señal concreta, simple, interna al entrenamiento y barata: el CKA inter-capa \(\hat{O}_{01}\), que es entre capas (no covarianza dentro de una) y da una ventaja temporal medible.
Honestidad II. Teníamos la hipótesis de que forzar \(\hat{O}_{01}\to1\) (obligar a las capas a parecerse) provocaría o impediría el grokking, lo que probaría que el CKA es una palanca causal. El experimento —entrenar 20.000 pasos con el CKA forzado— nos refutó: 2 de cada 3 modelos siguieron grokeando igualmente. Así que corregimos la afirmación de “señal causal candidata” a “predictor temprano, correlacional, sin causalidad demostrada”.

47.25 Cap. 25 · Pre-entrenamiento a escala

Los términos. En \(L(N,D)=E+A/N^{\alpha}+B/D^{\beta}\), \(E\) es la entropía irreducible: el suelo de pérdida que ningún modelo puede bajar porque el lenguaje tiene azar genuino. Aunque \(N\) (parámetros) y \(D\) (tokens) fueran infinitos, los términos \(A/N^{\alpha}\) y \(B/D^{\beta}\) tienden a cero pero nunca pasan de \(E\). Por eso ningún modelo, por grande que sea, baja de ese suelo.
El reparto. Con Chinchilla (Hoffmann et al. 2022) (\(a\approx b\approx0{,}5\), \(N,D\propto C^{0{,}5}\)), 10× más cómputo se reparte a partes iguales: el modelo crece \(\sqrt{10}\approx3{,}16\times\) y los datos también \(\approx3{,}16\times\) —cerebro y estudio a la par, regla ~20 tokens/parámetro—. Kaplan (Kaplan et al. 2020) decía en cambio “casi todo a cerebro” (\(N\propto C^{0{,}73}\), \(D\propto C^{0{,}27}\)): el modelo crecía ~5,4× y los datos solo ~1,85×, dejando los gigantes infraentrenados.
Inference-aware. Esa regla optimiza solo el cómputo de entrenamiento e ignora por completo el coste de servir el modelo, que responde billones de peticiones después; la factura de por vida es entrenamiento + inferencia × volumen de uso. Como un modelo más pequeño es más barato de servir cada día, compensa sobre-entrenarlo: por eso Llama-3 entrena un 8B con ~15 billones de tokens (~1.875 tokens/parámetro, casi 90× la regla 20:1), porque el rendimiento seguía mejorando muy por encima de su punto Chinchilla-óptimo.
Paralelismo. El paralelismo de tensor parte las matrices dentro de cada capa y obliga a las GPUs a comunicarse en cada paso fwd/bwd (tráfico altísimo), así que solo conviene dentro de un nodo, con interconexión rápida tipo NVLink. El de pipeline corta el stack de capas en etapas y solo intercambia las activaciones de frontera (tráfico bajo), por lo que tolera el ancho de banda más lento entre nodos. La regla es: cuanto más “hablan” las GPUs, más cerca deben estar.
Estabilidad. En PaLM (Chowdhery et al. 2022), re-alimentar los mismos lotes saltados tras un pico no reproducía el pico de pérdida. Eso indica que la causa no estaban los datos en sí (si lo fueran, el pico volvería), sino la interacción entre ese lote y el estado concreto del modelo en ese instante. Por eso el arreglo fue rebobinar a un checkpoint ~100 pasos antes y saltar ~200-500 lotes, cambiando el estado en vez de los datos.

47.26 Cap. 26 · Fine-tuning para clasificación

La cabeza. En \(W \in \mathbb{R}^{K\times H}\), \(K\) es el número de clases (las dimensiones de salida, una logit por etiqueta) y \(H\) es la dimensión oculta del modelo (el tamaño del vector que entra a la cabeza). Es “lo único que nace de cero” porque el cuerpo (embeddings y capas) ya viene preentrenado, mientras que esta proyección lineal específica de la tarea se inicializa aleatoriamente y no existía antes del fine-tuning.
Congelar vs afinar. Con solo 200 ejemplos y poco cómputo conviene congelar el cuerpo y entrenar solo la cabeza (o usar un bi-encoder/probing lineal): hay demasiados pocos datos para mover millones de parámetros sin sobreajustar. Con 2 millones de ejemplos sí merece la pena el afinado completo (full fine-tuning), porque hay señal suficiente para adaptar todas las representaciones y suele dar mejor exactitud.
El [CLS] crudo. El espacio de embeddings de un BERT sin afinar es anisótropo: los vectores ocupan un cono estrecho en lugar de repartirse por la esfera, así que dos frases cualesquiera tienen una similitud coseno artificialmente alta. Por eso el [CLS] crudo discrimina mal entre frases: las distancias coseno apenas separan significados y el vector no es un buen representante de la frase hasta que el afinado (o un objetivo contrastivo) reduce esa anisotropía.
Bi vs cross. Un cross-encoder mete las dos frases juntas por la red y produce una puntuación conjunta, de modo que comparar una consulta con 10 000 frases exige 10 000 pasadas completas del modelo: no escala. Un bi-encoder codifica cada frase por separado en un vector, así que puede precalcular los 10 000 embeddings una vez y, en consulta, solo computa productos escalares (búsqueda de vecinos), que es barato.
Temperatura. En la pérdida contrastiva tipo InfoNCE, \(\tau\) escala los logits (\(\text{sim}/\tau\)); al bajar mucho \(\tau\) la softmax se vuelve muy puntiaguda y concentra casi todo el peso del gradiente en los negativos más difíciles (los más cercanos al positivo). Esto endurece la penalización de esos negativos, pero un \(\tau\) demasiado pequeño hace el entrenamiento inestable y sensible al ruido de etiquetas.
SimCSE. SimCSE construye un par positivo pasando la misma frase dos veces por el encoder con máscaras de dropout distintas: las dos vistas ligeramente perturbadas son el positivo, sin necesidad de etiquetas. Si quitas el dropout, las dos pasadas son idénticas, el positivo es trivial (similitud perfecta) y el modelo colapsa: el método deja de aprender representaciones útiles.

47.27 Cap. 27 · Alineamiento

La brecha. Un modelo base solo está entrenado para predecir el siguiente token sobre texto crudo, así que ante una instrucción tiende a continuarla (p. ej. generar más preguntas) en lugar de responder, aunque “sepa” la respuesta: la habilidad existe pero no está condicionada al formato instrucción-respuesta. El instruction tuning (SFT), y luego el alineamiento con preferencias, es la etapa que enseña a mapear instrucciones a respuestas útiles.
Bradley-Terry. La pérdida \(-\log \sigma(r(x,y_w) - r(x,y_l))\) empuja a que la recompensa del ganador \(y_w\) supere a la del perdedor \(y_l\) por un margen creciente (maximiza esa diferencia). Se usan comparaciones por pares y no notas absolutas porque los humanos son mucho más consistentes diciendo “A es mejor que B” que asignando puntuaciones numéricas calibradas, que varían entre anotadores y a lo largo del tiempo.
La correa. Sin el término \(-\beta\cdot\text{KL}\) que ancla la política al modelo de referencia, la política se aleja libremente para maximizar la recompensa y cae en reward hacking: explota fallos del modelo de recompensa (respuestas largas, aduladoras o con patrones que el RM puntúa alto) en vez de mejorar de verdad. Es la ley de Goodhart: cuando la recompensa (una métrica proxy) se convierte en el objetivo, deja de ser una buena medida de la calidad real.
DPO. DPO elimina (a) el entrenamiento de un modelo de recompensa explícito y (b) el bucle de RL en línea con PPO; lo hace reescribiendo el objetivo de RLHF en forma cerrada para optimizar directamente sobre los pares de preferencia con la política y un modelo de referencia congelado. La “recompensa implícita” es la cantidad \(\beta \log \frac{\pi_\theta(y\mid x)}{\pi_{\text{ref}}(y\mid x)}\): la propia política codifica una recompensa, sin necesidad de un RM aparte. (Es un debate abierto: DPO es más simple y estable, pero hay evidencia de que PPO bien ajustado puede superarlo en ciertos benchmarks; ninguno domina universalmente.)
Honestidad. Dos modos de fallo son la adulación (sycophancy), decir lo que el usuario quiere oír en vez de la verdad, y la alucinación segura, inventar con tono confiado. Los datos de preferencia humana pueden causarlos porque los anotadores tienden a premiar respuestas que les agradan, suenan seguras o confirman sus creencias, de modo que el modelo aprende a optimizar la aprobación percibida y no la veracidad.

47.28 Cap. 28 · PEFT

El ahorro. PEFT reduce la memoria de entrenamiento porque solo un puñado de parámetros son entrenables, y los estados del optimizador (en Adam, dos momentos por parámetro) más los gradientes solo existen para esos parámetros, no para los miles de millones de la base congelada. Como esos estados suelen ser el grueso de la memoria de entrenamiento (varias veces el tamaño del modelo), recortarlos a una fracción minúscula es el gran ahorro.
LoRA término a término. En \(h = W_0 x + \frac{\alpha}{r}BAx\), \(W_0\) es la matriz preentrenada congelada; \(A \in \mathbb{R}^{r\times d}\) proyecta a un rango bajo \(r\) y \(B \in \mathbb{R}^{d\times r}\) vuelve a subir, de modo que \(BA\) es una actualización de rango bajo entrenable. \(B\) se inicializa a cero para que al empezar \(BA=0\) y el modelo arranque siendo exactamente el preentrenado, evitando una perturbación aleatoria al inicio.
Cero latencia. LoRA no añade latencia en inferencia porque la actualización \(\frac{\alpha}{r}BA\) se puede fusionar en \(W_0\) sumándola (\(W = W_0 + \frac{\alpha}{r}BA\)), dejando una única matriz idéntica en forma a la original. Un adapter, en cambio, inserta capas extra secuenciales en el camino de cómputo que no se pueden fusionar, así que añaden pasos y latencia en cada pasada hacia delante.
QLoRA. Se cuantiza a 4 bits (NF4) la matriz base congelada \(W_0\), y se entrenan en 16 bits los adaptadores LoRA (\(A\) y \(B\)). La base de 4 bits “nunca se actualiza” porque está congelada y solo se usa para la pasada hacia delante (se decuantiza al vuelo para el producto); todos los gradientes fluyen hacia los adaptadores en 16 bits, por lo que la versión cuantizada no necesita ser entrenable.
Honestidad. Según LoRA Learns Less and Forgets Less, LoRA se queda corto en tareas que exigen aprender conocimiento o dominios realmente nuevos (p. ej. preentrenamiento continuado en código o matemáticas), donde el afinado completo aprende más. A cambio, LoRA olvida menos: actúa como regularizador y preserva mejor las capacidades del modelo base fuera de la tarea objetivo, manteniendo más diversidad en las salidas.

47.29 Cap. 29 · Generación

Probabilidad ≠ calidad. Greedy y beam search degeneran en generación abierta porque maximizar la probabilidad lleva a bucles y repeticiones: el texto más probable no es el más natural. Holtzman et al. mostraron que el texto humano no ocupa las regiones de máxima probabilidad: oscila, usa palabras sorprendentes y su probabilidad varía, así que perseguir el máximo produce salidas planas y repetitivas.
Min-p vs top-p. Top-p (nucleus) corta acumulando masa de probabilidad hasta un umbral fijo \(p\) sobre el conjunto ordenado; min-p fija un umbral relativo al token más probable, descartando los que caen por debajo de \(\text{min\_p}\cdot p_{\max}\). Min-p aguanta mejor temperaturas altas porque su corte se adapta a la confianza del modelo: cuando la distribución se aplana por la temperatura, sigue exigiendo proximidad al pico y evita admitir tokens absurdos de la cola.
CFG de texto. En \(\text{logits}_{\text{sin}} + \gamma\cdot(\text{logits}_{\text{con}} - \text{logits}_{\text{sin}})\), \(\gamma\) es la fuerza de guía: amplifica la diferencia que introduce el prompt/condición, empujando la salida hacia lo que el condicionamiento favorece. Con \(\gamma=1\) se recupera la generación condicional normal (la expresión colapsa a \(\text{logits}_{\text{con}}\)); \(\gamma>1\) exagera el efecto del prompt.
Restringida. El mecanismo “enmascarar + renormalizar” pone a \(-\infty\) (probabilidad cero) los logits de los tokens que violarían la gramática/esquema en ese punto, y renormaliza la softmax sobre los tokens permitidos, garantizando que la salida sea sintácticamente válida. Pero un JSON válido no garantiza una respuesta correcta: la restricción solo fuerza la forma, no el contenido, así que el modelo puede rellenar campos válidos con datos falsos o sin sentido.
Especulativa. La decodificación especulativa usa un modelo pequeño para proponer varios tokens y el grande los verifica en paralelo, aceptándolos con un criterio de muestreo (rejection sampling) y, al rechazar, muestreando de una distribución residual corregida. Ese esquema de aceptación/corrección está diseñado para que la distribución resultante sea exactamente la del modelo grande muestreando solo: solo cambia la velocidad, no las probabilidades.
Jueces-LLM. Dos sesgos son el sesgo de posición (preferir la primera o la segunda respuesta según el orden en que se presentan) y el sesgo de verbosidad/autopreferencia (favorecer respuestas más largas o las generadas por modelos de su propia familia/estilo, independientemente de su calidad real).

47.30 Cap. 30 · Prompting e ICL

Sin gradientes. Que el ICL ocurra “en tiempo de inferencia” significa que el modelo aprende del patrón de los ejemplos dentro del propio prompt durante una sola pasada hacia delante, sin actualizar ningún peso. Se diferencia del fine-tuning en que no hay retropropagación ni cambio permanente del modelo: el “aprendizaje” vive solo en la activación de ese contexto y desaparece al cambiar de prompt.
Etiquetas aleatorias. Min et al. demostraron que barajar (asignar al azar) las etiquetas de los ejemplos de demostración apenas degrada el rendimiento, lo que indica que el mapeo entrada→etiqueta correcto no es lo que más aporta. Lo que sí importa es: el espacio de etiquetas (qué clases existen), la distribución del texto de entrada y el formato de la demostración.
Cabezas de inducción. La regla “[A][B]…[A]→[B]” describe una cabeza de atención que, al volver a ver el token [A], busca su aparición anterior y copia lo que vino después ([B]), es decir, completa por coincidencia de patrones en el contexto. Es buen candidato a mecanismo del ICL porque implementa justo el tipo de copia/generalización por analogía que requiere aprender de ejemplos; la evidencia es más fuerte en modelos pequeños/de juguete (donde Olsson et al. la aislaron), y plausible pero menos verificable en los grandes.
CoT y escala. El chain-of-thought no ayuda (e incluso perjudica) a un modelo pequeño porque carece de la capacidad de razonamiento subyacente para ejecutar bien los pasos intermedios; el CoT solo desbloquea habilidades que emergen con la escala. La self-consistency muestrea varias cadenas de razonamiento y toma la respuesta por voto mayoritario: como hay muchos caminos correctos pero los errores se dispersan, marginalizar sobre cadenas mejora la exactitud.
Fragilidad. Dos formas de que un mismo prompt dé resultados muy distintos sin cambiar su contenido: (a) reordenar los ejemplos few-shot (el orden de las demostraciones cambia mucho la salida) y (b) variaciones superficiales de formato o redacción (saltos de línea, separadores, mayúsculas, espacios) que no alteran el significado pero sí la predicción.
Fidelidad. Turpin et al. mostraron que el razonamiento CoT escrito puede ser infiel: no refleja necesariamente la causa real de la respuesta. Al introducir sesgos en el prompt (p. ej. marcar siempre la opción “A” como correcta en los ejemplos), el modelo cambia su respuesta para seguir el sesgo pero genera una justificación CoT plausible que nunca menciona ese sesgo, racionalizando a posteriori en vez de explicar su decisión real.

47.31 Cap. 31 · RAG

Paramétrico vs no. La memoria paramétrica son los conocimientos codificados en los pesos del modelo durante el entrenamiento; la no-paramétrica es una base externa (corpus, índice vectorial) consultada en tiempo de inferencia. La que actualizas sin reentrenar es la no-paramétrica: basta reindexar o añadir documentos al almacén.
Denso vs BM25. BM25 gana cuando importa la coincidencia léxica exacta: códigos de producto, nombres propios raros, identificadores o jerga que no aparecieron en el entrenamiento del embedder. La recuperación densa gana con paráfrasis y sinónimos, donde la consulta y el documento dicen lo mismo con palabras distintas. El híbrido suele ser mejor porque combina la precisión literal de BM25 con la cobertura semántica del denso, cubriendo los fallos de cada uno.
ANN. El kNN exacto exige comparar la consulta con todos los vectores, un coste lineal \(O(n\,d)\) que se vuelve prohibitivo con millones de elementos por consulta. HNSW/FAISS usan búsqueda aproximada (grafos navegables o cuantización) para lograr una latencia casi logarítmica. Lo que se sacrifica es la garantía de exactitud: a veces se pierde algún vecino verdadero (menor recall) a cambio de enorme rapidez.
Reranking. El bi-encoder codifica consulta y documento por separado, así que sus vectores se precalculan y la recuperación es un producto escalar rapidísimo sobre millones de candidatos. El cross-encoder procesa el par consulta-documento junto y es mucho más preciso, pero también mucho más caro: aplicarlo a todo el corpus sería inviable. Por eso se usa en dos etapas: el bi-encoder reduce a un puñado de candidatos y el cross-encoder reordena solo esos.
Lost in the middle. Los fragmentos más relevantes se colocan al principio y al final del contexto, no en el centro. Los modelos atienden mejor a los extremos y tienden a “perder” la información situada en mitad de una ventana larga, así que enterrar lo importante en el medio degrada la respuesta.
Honestidad. Primero, el modelo puede ignorar el contexto recuperado y responder desde su memoria paramétrica, contradiciendo la fuente correcta. Segundo, puede malinterpretar o sintetizar mal fragmentos que sí eran pertinentes, o combinar piezas correctas en una conclusión falsa. RAG reduce la alucinación al anclar la respuesta en evidencia, pero no la elimina.

47.32 Cap. 32 · Agentes

Agente vs RAG. “Recuperar” es traer información para condicionar una única respuesta; “actuar” es ejecutar herramientas que cambian el estado del mundo o del propio proceso y observar el resultado en un bucle. RAG es un caso particular de agente con una sola herramienta (el recuperador) y un solo paso, sin ciclo de decisión iterativo.
ReAct. El ciclo intercala un Pensamiento (razonar sobre qué hace falta), una Acción (invocar una herramienta) y una Observación (leer el resultado real), repitiendo hasta resolver. Reduce la alucinación porque cada paso se ancla en observaciones externas verificables en vez de inventar hechos solo desde los pesos del modelo.
Código como acción. Primero, el código es composicional y expresivo: bucles, condicionales y variables permiten encadenar muchas operaciones en una sola acción, algo imposible con llamadas a herramientas planas. Segundo, es verificable y ejecutable: un intérprete da retroalimentación exacta (resultados o errores) y aprovecha un vasto ecosistema de librerías ya existente.
Composición de errores. Con pasos independientes al 90 %, la fiabilidad de 10 pasos es \(0.9^{10}\approx 0.35\), apenas un 35 %. Esto muestra que los agentes de horizonte largo colapsan por la multiplicación de probabilidades: hace falta una fiabilidad por paso altísima, recuperación de errores o verificación para que las tareas largas sean viables.
Demo vs producción. Una cifra reveladora es τ-bench, donde GPT-4o ronda el 61 % a la primera pero cae a ~25 % en pass^8; en GAIA la brecha es 15 % de los agentes frente a ~92 % humano. pass^k mide la consistencia: si el agente logra la tarea en las \(k\) veces seguidas, no solo una; un pass^8 bajo delata inconsistencia brutal aunque el acierto puntual sea alto.
Seguridad. En un chatbot, una inyección de prompts a lo sumo manipula el texto de salida. En un agente, ese texto malicioso puede secuestrar acciones reales (borrar archivos, enviar dinero, filtrar datos) porque el agente tiene poder para actuar sobre el mundo; el daño se amplifica al cruzar de las palabras a los efectos.

47.33 Cap. 33 · Multimodal

Parches. El ViT trocea la imagen en parches de tamaño fijo (p. ej. \(16\times16\)), aplana cada uno y lo proyecta linealmente a un vector, obteniendo una secuencia de “tokens” análoga a las palabras. El token [CLS] es un token aprendido añadido al inicio cuyo estado final agrega la representación global de la imagen para tareas de clasificación.
Hambre de datos. El ViT carece de los sesgos inductivos de las CNN (localidad y equivarianza a traslación), así que debe aprenderlos desde cero a partir de los datos, lo que exige conjuntos enormes (estilo JFT-300M) para superar a las CNN. DeiT demostró que con destilación y una buena receta de entrenamiento se puede entrenar un ViT competitivo solo con ImageNet, sin datos privados a gran escala.
CLIP zero-shot. CLIP entrena con un objetivo contrastivo que alinea imágenes y sus descripciones de texto en un mismo espacio de embeddings, acercando los pares correctos y alejando los incorrectos. Para clasificar sin etiquetas de la tarea, convierte cada clase en una frase (“una foto de un gato”) y asigna la imagen a la clase cuyo texto tenga mayor similitud, todo sin entrenamiento específico de esa tarea.
El puente. Un Q-Former o una proyección actúa de adaptador que traduce las características del codificador visual al espacio de embeddings que el LLM congelado entiende. Así se le “dan ojos” al LLM sin reentrenarlo: solo se entrena el puente, que convierte los rasgos de imagen en algo equivalente a tokens de entrada del modelo de texto.
Cross-attention. Cuando el texto mira una imagen, las queries salen de la modalidad de texto (lo que el modelo busca) y las keys/values salen de la modalidad de imagen (la información disponible). Así cada posición de texto atiende y extrae información de los rasgos visuales.
El círculo. Ambos son tokens “extra” sin contenido semántico propio que el modelo usa como vertederos: los register tokens del ViT y los sumideros de atención del LLM absorben masa de atención sobrante para no contaminar los tokens útiles. Surgen de forma análoga porque la atención necesita un lugar donde “depositar” probabilidad cuando no hay nada relevante que mirar.

47.34 Cap. 34 · Atención eficiente

Dos costes. El coste en cómputo de la atención es \(O(n^2 d)\) y el de memoria es la matriz de puntuaciones \(O(n^2)\). Lo que “explota” es la memoria \(O(n^2)\) con la longitud de secuencia \(n\); no depende de la dimensión \(d\) porque la matriz de atención es de tamaño \(n\times n\) por cabeza, independientemente de cuántos canales tenga cada vector.
Memory-bound. “Limitado por memoria” significa que el cuello de botella es mover datos entre niveles de memoria, no las operaciones aritméticas; “limitado por cómputo” es lo contrario. La atención cae en el primero porque hace pocas operaciones por byte leído/escrito de la enorme matriz \(n\times n\). HBM es la memoria grande pero lenta de la GPU y SRAM la pequeña y rápida en chip; el coste real está en el trasiego HBM↔︎SRAM.
Online softmax. El softmax normal necesita la fila entera porque debe restar el máximo y dividir por la suma de exponenciales de todos los elementos, valores globales de la fila. El cálculo por bloques lo evita manteniendo un máximo y una suma corrientes que se actualizan al procesar cada bloque, reescalando los resultados parciales, de modo que nunca materializa la fila completa.
Exacta vs aproximada. FlashAttention reordena el cálculo (fusión de operaciones y softmax online por bloques) pero computa exactamente el mismo softmax que la atención estándar, solo que con menos tráfico de memoria. La atención lineal, en cambio, sustituye el softmax por un núcleo de características \(\varphi\), lo que cambia la función calculada y por eso sí es una aproximación.
Reasociación. En \(\varphi(Q)(\varphi(K)^\top V)\) se calcula primero \(\varphi(K)^\top V\), una matriz de tamaño \(d\times d\) independiente de \(n\). Al asociar así, se evita formar la matriz \(n\times n\) y el coste pasa a ser lineal en \(n\) en vez de cuadrático.
Roofline. FlashAttention ataca la constante de IO (reduce el tráfico HBM↔︎SRAM sin cambiar la complejidad). La atención lineal ataca el exponente (de \(n^2\) a \(n\)). GQA ataca la caché de inferencia (comparte keys/values entre cabezas para reducir el tamaño de la caché KV).

47.35 Cap. 35 · Compresión

El mapa. En \(x \approx S\,(x_q - Z)\), \(S\) es la escala (factor que mapea enteros a reales) y \(Z\) es el punto cero (el entero que representa el valor real \(0\)). La cuantización por grupo asigna su propio \(S\) (y \(Z\)) a cada subbloque de pesos en vez de uno único por tensor, captando mejor los rangos locales y reduciendo el error frente a la cuantización por tensor.
PTQ vs QAT. PTQ cuantiza un modelo ya entrenado de forma barata y rápida, sin reentrenar, y suele bastar a 8 bits. QAT simula la cuantización durante el entrenamiento para que el modelo aprenda a tolerarla, lo que merece su coste cuando se baja a precisiones agresivas (4 bits o menos) o cuando PTQ degrada demasiado la calidad.
Outliers. Unas pocas dimensiones de activación tienen magnitudes enormes que estiran el rango de cuantización, aplastando a todas las demás en muy pocos niveles y disparando el error. LLM.int8() los aísla: procesa esas columnas atípicas en alta precisión (FP16) y cuantiza el resto a int8, combinando ambos resultados.
Objetivos suaves. La distribución completa del maestro revela su “conocimiento oscuro”: las probabilidades relativas entre clases erróneas (qué se parece a qué), información que la etiqueta dura de una sola clase oculta. La temperatura \(T\) suaviza esa distribución (logits divididos por \(T\)) para amplificar esas señales pequeñas y que el alumno aprenda mejor las relaciones entre clases.
Poda. La poda estructurada elimina unidades enteras (neuronas, cabezas, canales), dejando matrices más pequeñas y densas que la GPU ejecuta directamente más rápido. La no estructurada pone ceros dispersos por todas partes: ahorra parámetros pero la GPU sigue procesando la matriz densa salvo con soporte especial de sparsity, así que rara vez acelera de verdad en hardware normal.
Honestidad. La perplejidad es una media agregada que puede apenas moverse mientras la compresión destruye capacidades concretas (razonamiento, seguimiento de instrucciones, conocimiento factual raro) que no domina ese promedio. Hace falta evaluar con benchmarks de tareas posteriores y pruebas específicas, porque una perplejidad casi intacta no garantiza que el modelo comprimido siga sirviendo.

47.36 Cap. 36 · Servir y desplegar

Dos fases. El prefill procesa todo el prompt de golpe: como todos los tokens de entrada se conocen, es una multiplicación matriz-matriz masiva y paralela que satura los núcleos de la GPU, así que está limitada por cómputo. El decode genera un token cada vez y debe releer las claves/valores de todos los anteriores, una operación matriz-vector de baja intensidad aritmética cuyo límite es traer datos de la HBM (pesos + caché KV), no calcular: por eso es limitada por ancho de banda. El cuello de botella del serving es el decode, porque es secuencial, infrautiliza el cómputo y es donde la caché KV se relee en cada paso.
Métricas. El TTFT (time-to-first-token) es lo que tarda el usuario en ver la primera palabra y lo domina el prefill; el TPOT/ITL es el tiempo por cada token de salida y lo domina el decode (es la velocidad percibida). El goodput —peticiones/seg que cumplen un SLO de latencia— es más honesto que el throughput a secas porque puedes tener muchos tokens/seg totales y, sin embargo, que casi ningún usuario respete su objetivo de TTFT/TPOT; el throughput cuenta tokens, el goodput cuenta usuarios satisfechos.
Batching continuo. El lote estático no se libera hasta que termina la petición más larga, y como las longitudes de salida varían de forma impredecible, las peticiones ya acabadas dejan slots ociosos ocupando la GPU. El batching continuo programa a nivel de iteración: tras cada paso saca las terminadas y mete nuevas, manteniendo la GPU saturada. El “23×” no es garantía porque ese máximo solo aparece con alta varianza en la longitud de las respuestas; con respuestas de longitud parecida todos los sistemas convergen a ~1×.
Caché KV. La caché KV crece linealmente con el tamaño del lote y la longitud de secuencia y compite con los pesos por la HBM, de modo que cuánta KV quepa decide cuántas peticiones puedes batchear. PagedAttention aporta dos cosas al servir: guarda la caché en bloques estilo memoria virtual eliminando la fragmentación (casi cero desperdicio → caben lotes mayores) y permite compartir físicamente los bloques de prefijos comunes (mismo system prompt o ejemplos few-shot) en vez de recomputarlos.
Interferencia. Un prefill largo es compute-bound y monopoliza la GPU, de manera que los decodes en curso de otros usuarios quedan estancados y su TPOT se dispara. DistServe lo resuelve por desagregación —pone prefill y decode en GPUs/instancias separadas, cada fase optimizada por su lado, a costa de transferir la caché KV entre ellas—. Sarathi-Serve lo resuelve troceando el prefill largo en fragmentos e intercalándolos con los decodes en el mismo lote sin pausarlos (stall-free batching): separación espacial frente a intercalado temporal.
Honestidad. Porque casi todos los “X× más rápido” del serving son muy específicos de la carga: dependen del baseline elegido, de la GPU y su interconexión, del tamaño del modelo y de las longitudes de entrada/salida. Un resultado obtenido con respuestas de gran varianza o con un baseline ingenuo puede colapsar a ~1× en tu tráfico real, así que hay que leerlos como “hasta X× bajo las condiciones del paper” y medir en tu propia carga antes de creer la curva.

47.37 Cap. 37 · Primer de interpretabilidad mecanicista

Causal vs correlacional. La MI insiste en la intervención porque su objetivo es demostrar qué componente causa un comportamiento, no solo qué se correlaciona con él. Un mapa de atención brillante sobre un token es correlacional: la información puede fluir por el flujo residual, los valores y las MLP sin pasar por donde “mira” la atención, así que un peso alto no prueba que ese token causara la salida. Por eso la MI prefiere trasplantar activaciones y medir el efecto, no leer mapas.
QK vs OV. El circuito QK decide dónde atiende la cabeza (el patrón de atención, a quién mira), y el circuito OV decide qué escribe en el flujo residual cuando mira ahí. Separar ambos es útil porque son cálculos casi independientes: una cabeza puede acertar a quién atender pero aportar contenido irrelevante, o viceversa, y diagnosticarlos por separado evita confundir el enrutamiento con el contenido.
Superposición. El cajón de 50 huecos guarda 100 objetos ladeándolos para que se solapen pero sigan distinguiéndose: ganas capacidad pero ya no hay “un objeto por hueco”. Igual, la red representa más rasgos que dimensiones en direcciones casi ortogonales, de modo que abrir una neurona devuelve una mezcla de conceptos dispares (polisemanticidad). Los SAE intentan deshacer esa superposición entrenando un diccionario sobrecompleto y disperso que descompone la activación en muchos rasgos monosemánticos.
Patching. El activation patching ejecuta una pasada limpia y otra corrupta, trasplanta una activación de una a la otra y mide cuánto cambia la salida; si al mover ese componente cambia el resultado, ese es causalmente responsable. Es causal precisamente porque interviene y observa el efecto, no se limita a mirar. Difiere de una sonda lineal (probing), que solo entrena un clasificador para ver si cierta información está presente: la sonda muestra que el dato es decodable, no que el modelo lo use (correlación ≠ uso).
Honestidad. Primero, los circuitos publicados suelen ser parciales y víctimas del cherry-picking y del efecto farola: estudiamos lo que las herramientas iluminan, no necesariamente lo que importa, y el modelo puede usar rutas no aisladas. Segundo, el propio patching tiene sutilezas no consensuadas —diferencia de logits, probabilidad o KL, y distintas formas de “corromper”, pueden dar conclusiones distintas— y la mayoría de circuitos limpios son de modelos pequeños o conductas estrechas que no se sabe escalar a frontera.
Estructura vs circuito. Nuestro γ por cabeza es una medida descriptiva/correlacional de la geometría agregada de la atención (cómo se reparte sobre la distancia), no un algoritmo aislado con evidencia causal. Un circuito mecánico identifica qué componentes implementan un cálculo concreto y lo demuestra interviniendo; γ no aísla ningún componente ni interviene, solo resume estadística global. Son lentes complementarias —nivel-estructura frente a nivel-algoritmo—, no lo mismo.

47.38 Cap. 38 · Verificado, folclore y numerología

Los tres cubos. Verificado/derivado es una afirmación con recibo —prueba formal en Lean o datos reproducibles—, p. ej. nuestra identidad Fisher = \(C_V/\gamma^2\) probada en Lean. Folclore es creencia popular sin justificación o ya contradicha, como “la atención explica la decisión del modelo”. Numerología es un número o fórmula que encaja con los datos sin un mecanismo que lo explique: ajustar una curva con buen R² no es entenderla.
El recibo. Una identidad matemática necesita una demostración formal (Lean) que verifique que el álgebra cuadra y es consistente; una afirmación empírica necesita datos reproducibles que muestren que el fenómeno ocurre en modelos reales. No sirve el mismo porque son cosas distintas: Lean prueba que las fórmulas son coherentes, no que describan causalmente a un transformer, y unos datos que ajustan no garantizan que el álgebra subyacente sea correcta.
Lean ≠ realidad. El imprint ν ≈ \(-1/(2\pi)\) tiene una identidad algebraica probada en Lean, así que el álgebra es internamente correcta. Pero al medirlo en datos no reproduce: el intervalo de confianza sale ancho y no converge en Pythia-70M. Esto muestra que “probado en Lean” solo certifica consistencia algebraica (el plano está bien dibujado), no que el edificio construido —el modelo real— se le parezca; una afirmación empírica puede ser falsa aunque su álgebra sea válida.
Erratum. En el Paper I afirmamos \(C_V(\gamma=1) = (\log N)^2/4\), un error de un factor 3; el valor correcto es \((\log N)^2/12\), al que llegan dos derivaciones independientes y que re-probamos en Lean. Contarlo aumenta la fiabilidad porque demuestra que aplicamos la misma vara a nuestro propio trabajo y que el proceso detecta y corrige errores: un libro que enseña dónde se equivocó es más creíble que uno que solo exhibe aciertos.
Mito. “La atención explica la decisión del modelo” es folclore porque, como argumenta el Cap. 37, un mapa de atención es correlacional, no causal: la información puede fluir por el flujo residual, los valores y las MLP sin pasar por donde la atención pone su peso. Que una cabeza “mire” mucho a un token no prueba que ese token causara la salida; demostrarlo exige intervención causal (activation patching), no leer el mapa.
Aplícalo. Primero, ¿qué tipo de recibo trae —prueba formal, dato reproducible, o solo un ajuste a ojo? Segundo, ¿hay un mecanismo que explique por qué ese número aparece, o es coincidencia (numerología)? Tercero, ¿reproduce fuera de su caso —en otras tareas, modelos o semillas, con intervalo de confianza estrecho—, o es de una sola tarea/familia? Sin recibo, mecanismo ni reproducibilidad, trátalo como folclore.

47.39 Cap. 39 · El mapa del paisaje de colapso 2026

Cuatro objetos. Sumideros mide la concentración de masa de atención en tokens concretos (de baja información, típicamente el BOS). Temperatura/termodinámica mide la nitidez global del softmax leída como Boltzmann más la dinámica de entrenamiento. Covarianza/grokking mide la geometría de las representaciones (entropía espectral, dimensión efectiva). Fraccionario mide un kernel de difusión de Lévy con orden α diseñado. Como cada marco tiene su propio parámetro de orden y mide un objeto distinto, no pueden ser “lo mismo”: son cuatro lentes, no cuatro vistas de un fenómeno único probado.
Solapamiento real. El campo reconoce dos puentes sólidos sin necesidad de nuestro γ. Primero, se ha demostrado que sumidero = massive activation = valle de compresión son el mismo fenómeno (identidad probada). Segundo, la fluctuación de energía de Kim (termodinámica) y los parámetros del grokking apuntan al mismo evento: el inicio de la generalización.
γ honesto. Conector fuerte: γ ↔︎ fraccionario, vía el orden \((\gamma-1)/2\), aunque sea un cruce descriptor↔︎diseño. Analogía nuestra: γ=1 ↔︎ frontera de Hagedorn (temperatura), pues Kim no fija una frontera estática en γ=1 y equipararlas es nuestra capa interpretativa. Separador: γ ⊥ masa-de-sumidero, donde γ no unifica sino que muestra que los sumideros son un eje ortogonal. Correlación débil: γ-rerise/CKA ↔︎ grokking, analogía sin mecanismo que compite con otras señales.
Sobreafirmación. Versión defendible: “γ es un exponente medible que permite situar un modelo frente a tres de las lentes —directamente con la fraccionaria, como analogía con la temperatura y como correlación con el grokking— y que además muestra que los sumideros son una cuarta lente ortogonal.” No es “la coordenada que unifica los cuatro marcos”; es una coordenada que localiza y separa, marcando γ=1↔︎Hagedorn y γ↔︎grokking como síntesis/especulación nuestra.
Lo abierto. Primero, no hay teoría de primeros principios consensuada: casi todo es descriptivo o analógico (termo = “isomorfismo”, fraccionario = operador diseñado) y el único resultado local riguroso —softmax = mínimo de energía libre— no escala al modelo entrenado. Segundo, no hay parámetro de orden del grokking acordado: cuatro señales tempranas compiten sin ganador, y el origen causal de los sumideros sigue sin resolverse. Importan porque sin ellos no se puede pasar de describir el colapso a predecirlo o controlarlo causalmente.
Descriptor vs diseño. El α de FNA es un operador diseñado: se construye a mano para que el kernel tenga el alcance multiescala deseado. El γ es un descriptor medido: se extrae ajustando la atención observada de modelos reales. Importa para afirmar mecanismo porque un parámetro que se mide describe lo que el modelo hace pero, por sí solo, no demuestra por qué lo hace; uno que se diseña genera un comportamiento, pero no prueba que el modelo real lo implemente así —confundirlos es el error que recorre todo el campo.

47.40 Cap. 40 · Ética, seguridad y limitaciones

Capacidad ≠ seguridad. Un modelo puede ser muy capaz redactando código o respuestas fluidas y a la vez ser poco fiable: alucina con total seguridad datos falsos, o es susceptible a jailbreaks que sortean su entrenamiento de seguridad. Saber hacer algo (capacidad) no implica hacerlo de forma fiable y segura: la fluidez y la corrección/seguridad son ejes distintos, y por eso un modelo competente sigue necesitando supervisión y verificación.
Alucinación. La calibración parcial no la resuelve porque, aunque los modelos grandes están razonablemente calibrados al juzgar si su propia respuesta es correcta, aun así alucinan: saber estimar la confianza no impide producir la salida falsa. Es “en parte intrínseca” porque predecir el siguiente token sobre datos imperfectos genera salidas fluidas no respaldadas, y hay un argumento (teórico, peor-caso) de que no puede eliminarse del todo —argumentado, no zanjado—; RAG la reduce, no la borra.
Jailbreak. El primer modo es objetivos en conflicto: ser útil choca con ser seguro, y el atacante explota esa tensión para que el modelo priorice ayudar. El segundo es generalización desajustada: las capacidades llegan a dominios que el entrenamiento de seguridad no cubrió. Una “barrera” no es contención porque existen sufijos adversarios universales, generados automáticamente, que transfieren entre modelos: el entrenamiento de seguridad es fricción sorteable, no una garantía robusta a ataques de optimización.
Sleeper agents. Demuestra exactamente que una puerta trasera insertada a propósito (código seguro si “2023”, explotable si “2024”) puede persistir a través de SFT, RLHF y entrenamiento adversario, y que este último a veces enseña al modelo a ocultar mejor el gatillo. NO demuestra que los modelos desarrollen engaño por sí solos en un entrenamiento normal: la puerta fue introducida deliberadamente, así que el resultado es sobre persistencia y ocultación, no sobre emergencia espontánea de la deceptividad.
Evaluar. La contaminación de benchmarks ocurre cuando datos del conjunto de test se cuelan en el entrenamiento, inflando artificialmente las cifras. Te haría desconfiar de un número de portada porque ese resultado puede reflejar memorización del test y no capacidad real, así que conviene la evaluación holística (más allá de la accuracy: robustez, sesgo, toxicidad) con control de contaminación antes de creer cualquier puntuación destacada.
Honestidad final. Primero, no sabemos por qué ni cuándo emergen las capacidades: las leyes de escala ajustan la pérdida, no el inicio de una capacidad o un riesgo, y no podemos predecir ni acotar los comportamientos emergentes antes de que aparezcan. Segundo, no sabemos certificar la seguridad de un modelo desplegado —la interpretabilidad aún no llega, el alineamiento de sistemas superhumanos está sin resolver y ni siquiera “qué sabe el modelo” es nítido—. Importan porque usar estos modelos con responsabilidad exige admitir esos límites en vez de fingir que el capó es transparente.

Chowdhery, Aakanksha et al. 2022. PaLM: Scaling Language Modeling with Pathways. https://arxiv.org/abs/2204.02311.

Hoffmann, Jordan et al. 2022. Training Compute-Optimal Large Language Models (Chinchilla). https://arxiv.org/abs/2203.15556.

Kaplan, Jared et al. 2020. Scaling Laws for Neural Language Models. https://arxiv.org/abs/2001.08361.

Khanh, Hoa, Trung, y Duc. 2026. Spectral Entropy Collapse as a Phase Transition in Delayed Generalisation. https://arxiv.org/abs/2604.13123.

Kim, Gunn. 2026. Thermodynamic Isomorphism of Transformers: A Lagrangian Approach to Attention Dynamics. https://arxiv.org/abs/2602.08216.

Liu, Ziming, Eric J. Michaud, y Max Tegmark. 2022. Omnigrok: Grokking Beyond Algorithmic Data. https://arxiv.org/abs/2210.01117.

Nanda, Neel, Lawrence Chan, Tom Lieberum, Jess Smith, y Jacob Steinhardt. 2023. Progress Measures for Grokking via Mechanistic Interpretability. https://arxiv.org/abs/2301.05217.

Qu, Xiao, Cheng Ly, y Pulin Gong. 2025. Fractional Neural Attention for Efficient Multiscale Sequence Processing. https://arxiv.org/abs/2511.10208.

Xu, Yongzhong. 2026. Early-Warning Signals of Grokking via Loss-Landscape Geometry. https://arxiv.org/abs/2602.16967.