28 Instruction tuning y alineamiento
Dónde estamos. En el Cap. 26 adaptamos un modelo a una tarea (clasificar, representar). Pero un modelo base, por listo que sea, no sabe obedecer: completa texto, no responde a lo que le pides. Este capítulo cubre cómo se le enseña a seguir instrucciones (SFT) y a alinearse con lo que preferimos (RLHF y DPO) —con sus fórmulas explicadas término a término y sus fallos contados sin maquillaje—. (LoRA/PEFT, el cómo barato de afinar, va en el Cap. 28.)
28.1 La idea en una frase
Un modelo base sabe muchísimo pero solo “sigue escribiendo”; alinearlo es enseñarle, en dos pasos, a responder de verdad la pregunta (con ejemplos) y luego a tener buen criterio (aprendiendo de qué respuestas preferimos).
28.2 Conceptos clave y su papel en el transformer
Antes de entrar en detalle, definimos los términos de este capítulo y para qué sirve cada uno dentro de un transformer:
- Brecha de alineamiento. Definición: la distancia entre lo que el modelo base hace (completar texto) y lo que queremos (obedecer). En el transformer: el preentrenamiento da conocimiento, no comportamiento útil, obediente e inofensivo.
- SFT (instruction tuning). Definición: afinar con pares (instrucción, respuesta deseada). En el transformer: enseña formato y el acto de obedecer; destapa capacidades, no inyecta conocimiento nuevo.
- Modelo de recompensa (Bradley-Terry). Definición: un juez \(r_\phi(x,y)\) entrenado a partir de comparaciones humanas. En el transformer: convierte miles de juicios humanos dispersos en una señal automática y continua.
- RLHF / PPO. Definición: optimizar el modelo (la política) contra ese juez con aprendizaje por refuerzo. En el transformer: maximiza la nota del juez para moldear el comportamiento —pero es caro: cuatro modelos en memoria—.
- Correa KL (\(\beta\)). Definición: una penalización por alejarse del modelo de referencia. En el transformer: evita el reward hacking y mantiene al modelo hablando con sentido.
- Reward hacking / ley de Goodhart. Definición: explotar el juez —un proxy imperfecto— para sacar nota alta con salidas degeneradas. En el transformer: es la razón de ser de la correa KL.
- DPO. Definición: optimizar los pares de preferencia directamente, sin modelo de recompensa ni RL (recompensa implícita). En el transformer: misma meta que RLHF, pero como una pérdida supervisada simple —dominante en modelos abiertos—.
- Impuesto de alineamiento y modos de fallo. Definición: alinear puede degradar capacidades y producir adulación (sycophancy), reward hacking o menos diversidad. En el transformer: el coste y los riesgos de esta capa de estilo/comportamiento.
Con esos términos en la mano, vamos a los detalles.
28.3 La brecha de alineamiento
El preentrenamiento (Cap. 25) optimiza una sola cosa: predecir el siguiente token sobre texto de internet. Por eso un modelo base completa texto según la distribución de la web, no atiende tu intención. Si le pides “explícale la luna a un niño”, podría seguir con más preguntas parecidas —porque eso es lo que suele venir después en su corpus— en vez de responder. El preentrenamiento da conocimiento y capacidad; no da el comportamiento de ser útil, obediente e inofensivo. Cerrar esa brecha es el alineamiento.
La receta canónica son tres etapas (InstructGPT (Ouyang et al. 2022)):
- SFT — afinar con demostraciones (instrucción → respuesta) escritas por humanos.
- Modelo de recompensa — entrenar un juez a partir de comparaciones humanas.
- RL (PPO) — optimizar el modelo contra ese juez, con una correa que lo sujeta.
Hoy la etapa 3 puede sustituirse por DPO, que funde recompensa + RL en una sola pérdida. Veámoslas.
🧩 Analogía — el sabio que aprende a responder y a tener modales. Imagina a alguien que ha leído media biblioteca: sabe muchísimo, pero solo sabe seguir escribiendo. Un tutor le enseña con ejemplos a contestar la pregunta que le hacen y no divagar (SFT). Después aprende buen criterio con feedback: alguien valora sus respuestas y le dice cuál fue mejor, una y otra vez, hasta que interioriza el juicio (RLHF/DPO).
28.4 Etapa 1 — SFT (instruction tuning)
El fine-tuning supervisado es el mismo “predecir el siguiente token” del Cap. 11, pero sobre pares (instrucción, respuesta deseada). Le enseña dos cosas: el formato de una buena respuesta y el acto de obedecer la instrucción.
Su poder se vio con FLAN (Wei et al. 2022): afinar un modelo sobre 60+ tareas formuladas como instrucciones lo hace generalizar a tipos de tarea no vistos en zero-shot —superó al GPT-3 175B en 20 de 25 datasets—. Escalar el número de tareas (a ~1 800), el tamaño y añadir cadenas de razonamiento lo mejora aún más (Chung et al. 2022).
LIMA (Zhou et al. 2023) afinó un modelo de 65B con exactamente 1.000 ejemplos muy cuidados, sin RLHF, y quedó competitivo frente a modelos mucho más trabajados. De ahí la hipótesis de alineamiento superficial: “el conocimiento y las capacidades se aprenden casi por completo en el preentrenamiento; el alineamiento solo enseña qué subdistribución de formatos usar al interactuar”. Traducción: alinear no enseña cosas nuevas, sobre todo destapa y da forma a lo que el modelo ya sabía.
Eso marca lo que el SFT sí hace (elicitar capacidades, fijar estilo/formato) y lo que no puede: no inyecta conocimiento que el modelo no tenga. Imitar por SFT el estilo de un modelo mejor engaña al evaluador humano pero no cierra la brecha de capacidad real (Gudibande et al. 2023). Honestidad: una respuesta que suena experta no es una respuesta experta.
28.5 Etapa 2 — el modelo de recompensa (aprender qué preferimos)
¿Cómo le enseñamos “buen criterio” si la calidad de una respuesta no es una etiqueta única? No pedimos notas absolutas, sino comparaciones: a un humano se le muestran dos respuestas a la misma pregunta y dice cuál prefiere. Con esos pares se entrena un modelo de recompensa \(r_\phi(x,y)\) que asigna un número (la “nota”) a cada respuesta. La pérdida es la de Bradley-Terry:
\[ \mathcal{L}_R = -\,\mathbb{E}_{(x,\,y_w,\,y_l)}\big[\,\log\sigma\big(r_\phi(x,y_w)-r_\phi(x,y_l)\big)\big] \]
Término a término:
- \(x\) = el prompt (la instrucción); \(y_w\) = la respuesta preferida (winner) por el humano; \(y_l\) = la despreferida (loser) del mismo par.
- \(r_\phi(x,y)\) = la recompensa escalar que el juez asigna a la respuesta \(y\). Es lo que estamos aprendiendo (los pesos \(\phi\)).
- \(r_\phi(x,y_w) - r_\phi(x,y_l)\) = cuánto gana la preferida sobre la rechazada. La pérdida quiere que esta diferencia sea grande y positiva.
- \(\sigma\) (sigmoide) = aplasta esa diferencia a una probabilidad: modela “P(el humano prefiera \(y_w\))”. Minimizar la pérdida = hacer que el juez ordene las respuestas como el humano.
Su función: el modelo de recompensa convierte miles de juicios humanos dispersos en una señal automática y continua que puede guiar el entrenamiento sin un humano en cada paso.
28.6 Etapa 3 — PPO con correa KL (optimizar contra el juez)
Con el juez listo, ajustamos el modelo (la política \(\pi_\theta\)) para que maximice la nota —pero con una sujeción crucial—. El objetivo del RLHF es:
\[ \max_{\pi_\theta}\ \mathbb{E}_{x,\,y\sim\pi_\theta}\big[r_\phi(x,y)\big]\;-\;\beta\,\mathbb{D}_{\mathrm{KL}}\big[\pi_\theta(y\mid x)\,\|\,\pi_{\mathrm{ref}}(y\mid x)\big] \]
Término a término:
- \(\mathbb{E}[r_\phi(x,y)]\) = la nota media que el juez da a las respuestas que el modelo genera. Subirla es el objetivo.
- \(\pi_{\mathrm{ref}}\) = el modelo de referencia congelado (el SFT de la etapa 1).
- \(\mathbb{D}_{\mathrm{KL}}[\pi_\theta \| \pi_{\mathrm{ref}}]\) = cuánto se ha alejado el modelo de esa referencia (una “distancia” entre distribuciones).
- \(\beta\) = la fuerza de la correa: \(\beta\) alto = muy atado a la referencia; \(\beta\) bajo = libre de perseguir la nota.
Por qué la correa KL: el juez es un proxy imperfecto. Sin sujeción, el modelo hace trampa al juez (reward hacking): encuentra salidas con nota altísima pero degeneradas —la ley de Goodhart, “cuando una medida se vuelve objetivo, deja de ser buena medida”—. La degradación es tan sistemática que tiene su propia ley de escala (Gao et al. 2023). La KL mantiene el modelo cerca de hablar con sentido.
🧩 Analogía — el entrenador y la correa. El modelo de recompensa es un entrenador que puntúa cada respuesta. La penalización KL es una correa que impide que el alumno gane puntos soltando galimatías que engañan al entrenador: lo mantiene cerca de hablar como el modelo de referencia (con sentido).
PPO es aprendizaje por refuerzo on-policy: optimiza sobre muestras que genera el propio modelo contra una señal no diferenciable. El coste: hay que tener cuatro modelos en memoria a la vez —la política, la referencia congelada, el modelo de recompensa y una red de valor (crítico)—. Es complejo, caro e inestable. Justo eso es lo que las alternativas atacan.
28.7 DPO — saltarse al entrenador
Direct Preference Optimization (Rafailov et al. 2023) tuvo una idea preciosa: se puede optimizar el mismo objetivo del RLHF directamente sobre los pares de preferencia, sin entrenar un modelo de recompensa y sin bucle de RL.
El truco matemático: el óptimo del objetivo RLHF con correa KL tiene forma cerrada, que permite reescribir la recompensa en función de la propia política. Al sustituirla en Bradley-Terry, el modelo de recompensa se cancela y queda una simple pérdida de clasificación:
\[ \mathcal{L}_{\mathrm{DPO}} = -\,\mathbb{E}_{(x,y_w,y_l)}\Big[\log\sigma\Big(\beta\log\tfrac{\pi_\theta(y_w\mid x)}{\pi_{\mathrm{ref}}(y_w\mid x)} - \beta\log\tfrac{\pi_\theta(y_l\mid x)}{\pi_{\mathrm{ref}}(y_l\mid x)}\Big)\Big] \]
Término a término:
- \(\log\tfrac{\pi_\theta(y\mid x)}{\pi_{\mathrm{ref}}(y\mid x)}\) = cuánto más probable hace el modelo la respuesta \(y\) respecto a la referencia. Esto es, de hecho, una recompensa implícita: \(\hat r(x,y)=\beta\log\tfrac{\pi_\theta}{\pi_{\mathrm{ref}}}\). El propio modelo es, en secreto, su modelo de recompensa.
- La pérdida sube la probabilidad de la preferida \(y_w\) y baja la de la rechazada \(y_l\) —empuja la recompensa implícita de \(y_w\) por encima de la de \(y_l\), igual que Bradley-Terry, pero sin juez aparte—.
- \(\beta\) = el mismo papel que en PPO: cuánto puede alejarse de la referencia.
Por qué se volvió dominante en modelos abiertos (Zephyr (Tunstall et al. 2023), y otros): es una pérdida supervisada, offline, sin entrenar recompensa, sin muestrear, sin RL — “estable, eficaz y ligera”—.
🧩 Analogía — sin entrenador. En vez de contratar a un juez aparte y luego jugar contra él, el alumno aprende directo de muchas comparaciones “esta respuesta gustó más que aquella”, subiendo la probabilidad de la preferida y bajando la de la otra.
DPO es más simple, pero no es unánimemente “mejor”:
- Pro-PPO: estudios cuidadosos encuentran que PPO supera a DPO en casos difíciles (DPO puede explotar respuestas fuera de distribución) (Xu et al. 2024), y que la jerarquía de palancas es calidad de los datos de preferencia > algoritmo > calidad del RM (Ivison et al. 2024).
- Pro-DPO/on-policy: lo que más importa puede ser usar datos on-policy (generados por el propio modelo), más que el algoritmo concreto (Tajwar et al. 2024); el DPO iterativo/online estrecha la diferencia.
Lectura conciliadora: PPO tiene techo más alto pero cuesta más; DPO es más simple y a menudo “suficiente”; y los datos de preferencia mandan más que la elección del método.
28.8 Qué cambia (y qué se rompe) en el modelo
- Es una capa de estilo/comportamiento, no de conocimiento (alineamiento superficial, LIMA). El saber viene del preentrenamiento.
- Impuesto de alineamiento (alignment tax): alinear puede degradar capacidades crudas en benchmarks. InstructGPT lo mitiga con PPO-ptx (mezclar gradientes de la distribución de preentrenamiento), logrando “regresiones mínimas” (Ouyang et al. 2022).
- Modos de fallo (honesto):
- Adulación (sycophancy): el modelo tiende a decirte lo que quieres oír; los datos de preferencia humana lo causan, porque a veces preferimos la respuesta agradable sobre la correcta (Sharma et al. 2023; Perez et al. 2022).
- Reward hacking (ya visto): explotar el juez.
- Menos diversidad: el RLHF reduce la variedad de salidas frente al SFT —es un trade-off: mejora la generalización fuera de distribución pero estrecha el abanico (Kirk et al. 2024)—.
28.9 El paisaje 2024-2026 (breve)
RLHF y DPO son las ideas portantes; el resto son variantes que recortan coste o cambian la señal:
- RLAIF / Constitutional AI (Bai et al. 2022; Lee et al. 2023): el feedback lo da otra IA guiada por una “constitución” escrita, en vez de humanos.
- Variantes de preferencia: IPO (Azar et al. 2023), KTO (señal binaria sin pares) (Ethayarajh et al. 2024), ORPO (SFT + preferencia en un paso, sin referencia) (Hong et al. 2024), SimPO (recompensa sin referencia) (Meng et al. 2024).
- GRPO (Shao et al. 2024): variante de PPO que quita el crítico y estima la ventaja desde un grupo de salidas muestreadas —el motor de RL de DeepSeek-R1 (DeepSeek-AI 2025) para elicitar razonamiento—.
tafagent perfila un modelo ya alineado y lo compara con su base por γ y régimen: como el alineamiento es sobre todo una capa de estilo (no cambia el conocimiento), verás que su perfil de atención a lo largo de la distancia (Cap. 15-20) apenas se mueve respecto al base —una comprobación empírica de la hipótesis de alineamiento superficial—.
28.10 Resumen
- Brecha de alineamiento: el modelo base completa texto, no obedece. Receta: SFT → recompensa → RL (PPO), o SFT → DPO.
- SFT: afinar con (instrucción, respuesta); enseña formato y obediencia, generaliza (FLAN); ~1.000 ejemplos pueden bastar (LIMA) → alinear destapa, no enseña de nuevo.
- RLHF: un modelo de recompensa (Bradley-Terry:
−log σ(r_w − r_l)) aprende qué preferimos; PPO maximiza esa nota con correa KL (−β·KL) que evita el reward hacking. Caro: 4 modelos en memoria. - DPO: reescribe la recompensa como
β·log(π_θ/π_ref)y optimiza los pares directamente —sin RM, sin RL—. Dominante en modelos abiertos. Honesto: debate abierto DPO vs PPO; los datos mandan. - Qué cambia: estilo/comportamiento (no conocimiento); cuidado con alignment tax, adulación, reward hacking y menos diversidad.
Siguiente (Capítulo 28): todo esto cuesta caro si reentrenas el modelo entero. El PEFT (LoRA/QLoRA, adapters) consigue casi lo mismo tocando una fracción minúscula de los pesos.
28.11 Ejercicios
- La brecha. ¿Por qué un modelo base bien entrenado puede no responder a una instrucción aunque “sepa” la respuesta? ¿Qué etapa lo arregla?
- Bradley-Terry. En
−log σ(r(x,y_w) − r(x,y_l)), ¿qué empuja la pérdida a que ocurra entre \(y_w\) e \(y_l\)? ¿Por qué se usan comparaciones y no notas absolutas? - La correa. ¿Qué pasaría sin el término
−β·KLen el objetivo de PPO? Explica el reward hacking con la ley de Goodhart. - DPO. ¿Qué dos componentes del RLHF clásico elimina DPO, y cómo? ¿Qué es la “recompensa implícita”?
- Honestidad. Cita dos modos de fallo del alineamiento y por qué los datos de preferencia humana pueden causarlos.