24 La vista de transporte fraccionario

Dónde estamos. Tercera lente física, y la más exótica de nombre pero intuitiva de idea: ver la atención como un transporte de información —una difusión—. Si decae con la distancia como una power-law, se comporta como un tipo especial de difusión (de Lévy), y γ se puede leer como un “orden fraccionario”. Como en los capítulos anteriores, separamos lo que es nuestro de lo que ya hizo otra gente, y marcamos qué es interpretación.

24.1 La idea en una frase

La atención “transporta” información entre tokens; si su peso cae como d^−γ, ese transporte es una difusión anómala (de Lévy), y γ se puede leer como el orden de ese proceso —con la mayoría de modelos en un régimen de suavizado—.

24.2 Conceptos clave y su papel en el transformer

Antes de entrar en detalle, definimos los términos de este capítulo y para qué sirve cada uno dentro de un transformer:

Transporte / difusión. Definición: el proceso por el que algo (calor, partículas, información) se propaga por un medio. En el transformer: la metáfora de que la atención “mueve” información entre posiciones de la secuencia.
Difusión normal (browniana). Definición: propagación a base de muchos pasos locales; el territorio crece despacio (∝√t) y la usa el Laplaciano ordinario. En el transformer: el caso de referencia —una atención puramente local— frente al que comparamos.
Vuelo de Lévy (difusión anómala). Definición: difusión con saltos raros y enormes de cola de potencia (P(salto ℓ)∝ℓ^−(1+α)), más rápida que la normal. En el transformer: lo que parece una atención con cola d^−γ —mucha mezcla local más algún “salto” a lo lejano—.
Índice de Lévy α. Definición: el exponente de la cola de saltos, válido en α∈(0,2). En el transformer: se mapea al exponente de atención como α=γ−1 (interpretación, no teorema); fuera de ese rango la analogía deja de valer.
Laplaciano fraccionario (−Δ)^s. Definición: la versión “de orden fraccionario” del operador de difusión que genera los vuelos de Lévy. En el transformer: el operador cuyo núcleo de saltos tiene la misma forma power-law que el núcleo de atención.
Orden fraccionario s. Definición: una perilla entre identidad, derivada e integral: s=0 identidad, s>0 deriva (rugosidad), s<0 integra (suavizado). En el transformer: se lee del γ medido como s=(γ−1)/2 y dice qué hace la atención.
Régimen de suavizado vs. diferenciación. Definición: los dos lados de la perilla: γ<1 → s<0 → suavizar (promediar de largo alcance), γ>1 → s>0 → diferenciar. En el transformer: la mayoría de los modelos entrenados (γ<1) caen del lado del suavizado, otra vez con γ=1 como cruce.

La idea de fondo: una tercera lente —el transporte fraccionario— que vuelve a colocar γ=1 en el centro, como orden cero entre suavizar y diferenciar.

24.3 Difusión normal vs. anómala

🧩 Analogía. Una hormiga explora con muchos pasitos locales: su territorio crece despacio (∝√t). Es la difusión normal (browniana, gaussiana). Un albatros forrajea dando vueltas locales… pero de vez en cuando lanza un vuelo larguísimo a otra zona; esos saltos raros y enormes dominan lo lejos que llega. Es una vuelo de Lévy: difusión anómala, más rápida que la normal.

La diferencia matemática: la difusión normal usa el Laplaciano ordinario; la de Lévy usa un Laplaciano fraccionario (−Δ)^s. Y la firma de Lévy son saltos con cola de potencia: P(salto de longitud ℓ) ∝ ℓ^−(1+α), con índice α∈(0,2).

24.4 La conexión con la atención

Aquí está el puente: un núcleo de atención A(d) ∝ d^−γ es justo ese tipo de núcleo de saltos con cola de potencia. Es decir, la atención “transporta” información entre posiciones como una difusión de Lévy: mucha mezcla local, pero con una cola que deja “saltar” lejos de vez en cuando (como el albatros). Igualando exponentes:

\[ \alpha = \gamma - 1, \qquad s = \frac{\alpha}{2} = \frac{\gamma-1}{2} \quad (\text{interpretación}) \]

donde α es el índice de Lévy y s el orden del Laplaciano fraccionario.

24.5 El “orden fraccionario” y el régimen de suavizado

¿Qué es un orden fraccionario? Una perilla entre la identidad y la derivada:

orden 0 = identidad (no hacer nada);
orden positivo = derivar (rugosidad: amplifica lo fino);
orden negativo = integrar (suavizado: promedia).

Con s = (γ−1)/2, esto traza los regímenes que ya conocemos:

γ < 1 → s < 0 → suavizado (integración, promediar).
γ = 1 → s = 0 → identidad (el cruce, otra vez γ=1).
γ > 1 → s > 0 → diferenciación (el otro lado).

Y, recordando el atlas (Cap. 16), la mayoría de los modelos entrenados (γ<1) caen en el régimen de suavizado —su atención actúa como un promediado de largo alcance—.

⚠ Honesto — qué es nuestro y qué es interpretación

“La atención es fraccionaria/Lévy” NO es novedad nuestra. Fractional Neural Attention (FNA) (Qu et al. 2025) ya diseña la atención como un operador de Laplaciano fraccionario con un orden α elegido a mano. El marco está tomado.
Lo plausiblemente nuestro: leer el γ medido (del atlas, ligado a RoPE) como un orden fraccionario, y ubicar a los modelos entrenados en el régimen de suavizado —una afirmación descriptiva, no un operador nuevo—.
Caveats: FNA decae por distancia en el espacio de características; nosotros por posición en la secuencia —la analogía es por similitud estructural de núcleos power-law, no una identidad—. Y α=γ−1, s=(γ−1)/2 son mapeos interpretativos, no teoremas. Además, un índice de Lévy real exige α∈(0,2): un γ grande empujaría α>2 (fuera del rango estable) → la analogía vale dentro de un régimen, no siempre.

24.6 Por qué esta lente aporta

Tres lentes (fases, termodinámica, fraccionario) y el mismo γ=1 en el centro: es la frontera de fase (Cap. 21), el punto donde Fisher/C_V se comportan (Cap. 22), y el orden-0 que separa suavizar de diferenciar (aquí). Que tres analogías independientes señalen el mismo umbral es, justamente, lo que hace que la lente física valga la pena —no por elegante, sino por consistente—.

🧪 Pruébalo — tafagent

tafagent te da el γ de tu modelo; de ahí lees directamente su “orden fraccionario” (γ−1)/2 y sabes si está en régimen de suavizado (γ<1) o no. Pruébalo con varios del atlas: casi todos saldrán suavizando.

24.7 Resumen

La atención transporta información; con A(d)∝d^−γ lo hace como una difusión de Lévy (saltos con cola de potencia), no browniana.
γ se lee como un orden fraccionario s=(γ−1)/2: γ<1 = suavizado, γ=1 = identidad (cruce), γ>1 = diferenciación. La mayoría de modelos suavizan.
Honesto: el marco fraccionario lo diseñó FNA (no es nuestro); lo nuestro es leer el γ medido como orden. α=γ−1 y s=(γ−1)/2 son interpretación; la analogía Lévy vale en α∈(0,2).
Consistencia: las tres lentes (fases, termo, fraccionario) señalan el mismo γ=1.

Siguiente (Capítulo 24): cerramos la Parte III con la dinámica de entrenamiento y el grokking —y aquí entra nuestro propio paper piloto, con su alcance y sus límites—.

24.8 Ejercicios

Hormiga vs albatros. ¿Qué tipo de difusión es cada uno, y cuál se parece a una atención con cola de potencia?
El orden. Si s=(γ−1)/2, ¿qué hace la atención de un modelo con γ=0,7: suavizar o diferenciar? ¿Y uno con γ=1,3?
Honestidad. ¿Qué parte de esta lente es nuestra y qué parte ya hizo FNA?
El caveat de Lévy. ¿Por qué la analogía de Lévy “se rompe” para γ muy grande? (Pista: rango válido de α.)

📄 Nuestro paper — datos y detalles

La lente fraccionaria/Lévy, los rangos de validez y su conexión con γ están en abierto: Predicting How Transformers Attend (Zenodo).

Referencias

Qu, Xiao, Cheng Ly, y Pulin Gong. 2025. Fractional Neural Attention for Efficient Multiscale Sequence Processing. https://arxiv.org/abs/2511.10208.