46 R9 · Manual de tafagent
Qué es. El manual de tafagent, la herramienta de diagnóstico del navegador que acompaña a este libro. Aquí están sus modos, qué métricas calcula, las recetas y cómo leer sus veredictos. Lo importante de entrada, sin malentendidos: tafagent NO dibuja mapas de atención —es un diagnóstico que PREDICE métricas desde la config del modelo—. Para ver mapas, usa BertViz o Transformer Explainer; para medir/predecir γ, horizonte, régimen y KV, usa tafagent.
46.1 Qué es y qué no es
- Es: una herramienta en el navegador (cero instalación, cero GPU, sin telemetría) que predice la viabilidad práctica de un LLM antes de gastar GPU/€: contexto largo real, degradación por cuantización, plantilla de chat, errores de config.
- No es: un visor de mapas de atención, ni un servicio que ejecute el modelo. Lo que ves son predicciones deterministas (calculadas con Pyodide) más una capa de lenguaje natural.
- Entrada: un HF model id o un
config.json(lee θ, T_train, cabezas…); tú fijas T_eval (la longitud objetivo) y si el modelo usa ventana deslizante (SWA).
46.2 Las métricas que calcula
| Métrica | Qué dice | Cap. |
|---|---|---|
| γ_Padé | γ predicho desde la geometría (θ, T) | 15 |
| γ_observado | γ medido de pesos reales | 15 |
| d_horizon | horizonte de atención efectivo (hasta dónde atiende de verdad) | 15, 19 |
| η (θ_eff_obs/θ_eff_Padé) | régimen: Normal / Fraude / Comprimido / Over-Padé / SWA | 16 |
| KV memory | memoria de caché a la longitud L | 20, 36 |
| L_NIAH | techo estimado needle-in-haystack | 19 |
| Δγ | sonda de fase de cabezas de inducción | 24, 30 |
| ΔPPL | shift de perplejidad por cuantización | 35 |
| Fase A / Fase B | γ<1 (global) vs γ>1 (colapso local) | 21 |
46.3 Los 7 modos
- 📇 Profile. Pega un model id → γ_Padé vs γ_observado, R², régimen, horizonte. El modo de partida.
- 🆚 Compare. Enfrenta dos modelos en los mismos ejes.
- 🔍 Inspect config. Lee y explica el
config.json(θ, cabezas, SWA…). - 💬 Ask plain English. Pregunta en lenguaje natural (lo resuelve un modelo pequeño in-browser).
- 📋 Pick recipe. Elige una receta X-* (abajo).
- 🩺 Diagnose CLI. Diagnóstico estilo línea de comandos.
- 📊 Phase diagram. Sitúa un panel de modelos en el eje γ (Fase A/B) — el atlas interactivo.
46.4 El Anti-Bullshit Pack (15 herramientas)
Diagnósticos que atacan el “humo” de las fichas de modelo: Context Unmasker (contexto largo real vs anunciado), Chat-template Sniffer, Quant-regime Classifier, Multilingual Tokenizer Tax (tokeniza texto real en 6 tokenizadores → cuánto “cuesta” tu idioma), Contamination Prior, LongScore (RULER+HELMET), PEFT Anti-Pattern, Spec-Decode, y extensión: planificador YaRN/RoPE, GGUF Bridge, Launch-Flag Generator.
46.5 Las recetas (8 core)
| Receta | Para qué | Cap. |
|---|---|---|
| X-1 | custom vs API | 25, 36 |
| X-2 | viabilidad de contexto largo | 19 |
| X-3 | pre-flight de presupuesto | 25 |
| X-5 | hardware | 36 |
| X-19 | compresión de KV (soft-decay/cutoff) | 20 |
| X-21 | pureza del imprint | 15 |
| X-22 | invariante cómputo-contexto | 34 |
| X-23 | detector de fase de cabezas de inducción | 24, 30 |
46.6 Cómo leer la salida: la TAF Card
El resultado se resume en una TAF Card con veredictos ✅ / ⚠ / ❌ por dimensión (contexto, cuantización, plantilla, régimen). Y hay un dashboard de falsación (F1-F23): no solo te da números, sino que somete las afirmaciones a prueba —la misma filosofía del Cap. 38—.
Un flujo típico: Profile (pega el id) → lee el veredicto de la TAF Card → si algo sale ⚠/❌, abre el diagnóstico concreto (p. ej. Context Unmasker o Quant-regime) → usa la receta correspondiente (X-2 contexto, X-19 KV) para decidir.
46.7 Verificación (los recibos)
- Pyodide para las matemáticas (deterministas), WebLLM para el lenguaje natural, transformers.js para el tokenizador.
- Verificación Lean+Mathlib: 15 identidades probadas formalmente (
github.com/karlesmarin/lean-taf). - Panel de 23 modelos abierto (
github.com/karlesmarin/tafagent-registry).
Muchas salidas (γ_Padé, horizonte estimado, KV a longitud L) son predicciones desde la config —rápidas y útiles para decidir antes de gastar GPU—, no medidas sobre la atención real. Cuando tengas el modelo, contrasta con γ_observado (medido) y con tu propia medición (R4). Y recuerda los límites del libro: D_f y el headroom de contexto son 🟡 reglas no validadas del todo (R1).
Siguiente referencia (R10): las soluciones orientativas de los ejercicios de cada capítulo.