46 R9 · Manual de tafagent

Qué es. El manual de tafagent, la herramienta de diagnóstico del navegador que acompaña a este libro. Aquí están sus modos, qué métricas calcula, las recetas y cómo leer sus veredictos. Lo importante de entrada, sin malentendidos: tafagent NO dibuja mapas de atención —es un diagnóstico que PREDICE métricas desde la config del modelo—. Para ver mapas, usa BertViz o Transformer Explainer; para medir/predecir γ, horizonte, régimen y KV, usa tafagent.

46.1 Qué es y qué no es

Es: una herramienta en el navegador (cero instalación, cero GPU, sin telemetría) que predice la viabilidad práctica de un LLM antes de gastar GPU/€: contexto largo real, degradación por cuantización, plantilla de chat, errores de config.
No es: un visor de mapas de atención, ni un servicio que ejecute el modelo. Lo que ves son predicciones deterministas (calculadas con Pyodide) más una capa de lenguaje natural.
Entrada: un HF model id o un config.json (lee θ, T_train, cabezas…); tú fijas T_eval (la longitud objetivo) y si el modelo usa ventana deslizante (SWA).

46.2 Las métricas que calcula

Métrica	Qué dice	Cap.
γ_Padé	γ predicho desde la geometría (θ, T)	15
γ_observado	γ medido de pesos reales	15
d_horizon	horizonte de atención efectivo (hasta dónde atiende de verdad)	15, 19
η (θ_eff_obs/θ_eff_Padé)	régimen: Normal / Fraude / Comprimido / Over-Padé / SWA	16
KV memory	memoria de caché a la longitud L	20, 36
L_NIAH	techo estimado needle-in-haystack	19
Δγ	sonda de fase de cabezas de inducción	24, 30
ΔPPL	shift de perplejidad por cuantización	35
Fase A / Fase B	γ<1 (global) vs γ>1 (colapso local)	21

46.3 Los 7 modos

📇 Profile. Pega un model id → γ_Padé vs γ_observado, R², régimen, horizonte. El modo de partida.
🆚 Compare. Enfrenta dos modelos en los mismos ejes.
🔍 Inspect config. Lee y explica el config.json (θ, cabezas, SWA…).
💬 Ask plain English. Pregunta en lenguaje natural (lo resuelve un modelo pequeño in-browser).
📋 Pick recipe. Elige una receta X-* (abajo).
🩺 Diagnose CLI. Diagnóstico estilo línea de comandos.
📊 Phase diagram. Sitúa un panel de modelos en el eje γ (Fase A/B) — el atlas interactivo.

46.4 El Anti-Bullshit Pack (15 herramientas)

Diagnósticos que atacan el “humo” de las fichas de modelo: Context Unmasker (contexto largo real vs anunciado), Chat-template Sniffer, Quant-regime Classifier, Multilingual Tokenizer Tax (tokeniza texto real en 6 tokenizadores → cuánto “cuesta” tu idioma), Contamination Prior, LongScore (RULER+HELMET), PEFT Anti-Pattern, Spec-Decode, y extensión: planificador YaRN/RoPE, GGUF Bridge, Launch-Flag Generator.

46.5 Las recetas (8 core)

Receta	Para qué	Cap.
X-1	custom vs API	25, 36
X-2	viabilidad de contexto largo	19
X-3	pre-flight de presupuesto	25
X-5	hardware	36
X-19	compresión de KV (soft-decay/cutoff)	20
X-21	pureza del imprint	15
X-22	invariante cómputo-contexto	34
X-23	detector de fase de cabezas de inducción	24, 30

46.6 Cómo leer la salida: la TAF Card

El resultado se resume en una TAF Card con veredictos ✅ / ⚠ / ❌ por dimensión (contexto, cuantización, plantilla, régimen). Y hay un dashboard de falsación (F1-F23): no solo te da números, sino que somete las afirmaciones a prueba —la misma filosofía del Cap. 38—.

Un flujo típico: Profile (pega el id) → lee el veredicto de la TAF Card → si algo sale ⚠/❌, abre el diagnóstico concreto (p. ej. Context Unmasker o Quant-regime) → usa la receta correspondiente (X-2 contexto, X-19 KV) para decidir.

46.7 Verificación (los recibos)

Pyodide para las matemáticas (deterministas), WebLLM para el lenguaje natural, transformers.js para el tokenizador.
Verificación Lean+Mathlib: 15 identidades probadas formalmente (github.com/karlesmarin/lean-taf).
Panel de 23 modelos abierto (github.com/karlesmarin/tafagent-registry).

⚠ Honesto — qué es predicción y qué es medida

Muchas salidas (γ_Padé, horizonte estimado, KV a longitud L) son predicciones desde la config —rápidas y útiles para decidir antes de gastar GPU—, no medidas sobre la atención real. Cuando tengas el modelo, contrasta con γ_observado (medido) y con tu propia medición (R4). Y recuerda los límites del libro: D_f y el headroom de contexto son 🟡 reglas no validadas del todo (R1).

Siguiente referencia (R10): las soluciones orientativas de los ejercicios de cada capítulo.