11  Encoder, decoder y encoder-decoder

Dónde estamos. En el Cap. 9 montamos un transformer generativo (un decoder, con máscara causal). Pero con las mismas piezas, cambiando qué puede mirar cada token y si hay codificador, decodificador o ambos, salen tres familias de modelos: BERT, GPT y T5. Este capítulo es el “árbol de la vida” de los transformers: te da el mapa para situar cualquier modelo que te encuentres.

11.1 La idea en una frase

Las tres familias usan los mismos bloques (atención + FFN + andamiaje); lo que las distingue es, sobre todo, la máscara de atención —qué puede ver cada token— y si hay atención cruzada entre un codificador y un decodificador.

11.2 Conceptos clave y su papel en el transformer

Antes de entrar en detalle, definimos los términos de este capítulo y para qué sirve cada uno dentro de un transformer:

  • Codificador (encoder). Definición: una pila de bloques con atención bidireccional. En el transformer: sirve para comprender un texto a fondo; cada token ve todo el contexto, pasado y futuro.
  • Decodificador (decoder). Definición: una pila de bloques con atención causal. En el transformer: sirve para generar; cada token solo ve el pasado y predice lo que sigue.
  • Máscara bidireccional. Definición: sin restricción; cada token atiende a todos. En el transformer: es el interruptor que vuelve “comprensión” un modelo (BERT).
  • Máscara causal. Definición: bloquea el futuro (las posiciones por venir). En el transformer: es el interruptor que vuelve “generación” un modelo (GPT).
  • Atención cruzada. Definición: las consultas del decodificador miran las claves y valores del codificador. En el transformer: el puente entrada→salida; deja que el texto que se escribe consulte el texto de entrada (traducir, resumir).
  • Masked LM (rellenar huecos). Definición: objetivo que esconde palabras al azar y pide adivinarlas con ambos lados. En el transformer: el entrenamiento típico de los encoder-only; produce comprensión bidireccional.
  • Predicción del siguiente token. Definición: objetivo que predice lo que viene tras el contexto. En el transformer: el entrenamiento de los decoder-only; un único objetivo que escala muy bien y da generación.
  • Denoising (seq2seq). Definición: objetivo que reconstruye texto corrompido. En el transformer: el entrenamiento de los encoder-decoder (T5/BART); encaja con tareas entrada→salida.

Con este vocabulario, las tres familias dejan de ser nombres sueltos y se vuelven combinaciones de máscara + objetivo.

11.3 Las tres familias

Solo codificador (BERT, RoBERTa). Atención bidireccional: cada token ve a todos los demás, pasados y futuros. Se entrena rellenando huecos (masked language modeling: esconder palabras y adivinarlas con el contexto de ambos lados). Función: comprender a fondo un texto → clasificación, reconocimiento de entidades, embeddings de frases. No genera texto de forma natural.

Solo decodificador (GPT, LLaMA, Mistral). Atención causal: cada token solo ve el pasado. Se entrena prediciendo el siguiente token. Función: generar. Es la arquitectura dominante de los LLM actuales.

Codificador-decodificador (Transformer original, T5, BART). Un codificador lee la entrada de forma bidireccional; un decodificador genera la salida de forma causal, mirando a la entrada mediante atención cruzada. Función: secuencia a secuencia → traducción, resumen.

Tabla 11.1: Las tres familias de transformers
Familia Qué ve cada token (máscara) Objetivo Para qué Ejemplos
Solo encoder bidireccional (todo) rellenar huecos (MLM) comprender BERT, RoBERTa
Solo decoder causal (solo el pasado) siguiente token generar GPT, LLaMA
Encoder-decoder enc. bidireccional + dec. causal + cruzada denoising / spans seq2seq T5, BART

11.4 La diferencia clave: la máscara (y la atención cruzada)

Llama la atención lo poco que cambia por dentro: lo que de verdad separa a las familias es la máscara de atención —ver todo (bidireccional) o solo el pasado (causal)—. Ese único interruptor decide si el modelo comprende o genera.

En el encoder-decoder hay además una tercera pieza: la atención cruzada. En cristiano: mientras el decodificador escribe la salida, sus consultas miran las claves y valores del codificador —es decir, el texto que se está escribiendo consulta al texto de entrada para decidir qué decir—. Es el puente entrada→salida.

🧩 Analogía. Piensa en tres papeles distintos: Encoder (BERT) = un lector que puede mirar toda la página de golpe para entenderla, pero no escribe. Decoder (GPT) = un escritor que solo ve lo que ya ha escrito y añade la siguiente palabra. Encoder-decoder (T5/BART) = un traductor que primero lee toda la fuente y luego escribe el destino palabra a palabra, mirando de reojo el original (esa mirada es la atención cruzada).

11.5 Cada familia, su objetivo de entrenamiento

El objetivo de preentrenamiento moldea para qué sirve cada modelo:

  • BERTmasked LM (rellenar huecos) → comprensión bidireccional.
  • GPTsiguiente token → generación.
  • T5 / BARTdenoising (reconstruir texto corrompido) → seq2seq.

11.6 Por qué ganó “solo decodificador” para los LLM

El campo se consolidó en decoder-only para los grandes modelos por varias razones: un único objetivo (siguiente token) que escala muy bien y que da a la vez generación y —vía prompting— comprensión, más el in-context learning y la generalidad. Matiz honesto: para embeddings y clasificación puros, los encoder- only siguen siendo más baratos y a menudo mejores; y los encoder-decoder brillan en tareas con entrada→salida bien definidas (traducción, resumen).

Nota🧠 Curiosidad — la arquitectura no es un destino

¿Cuánto importa de verdad elegir bien la arquitectura? Menos de lo que parece. Un estudio empírico (Wang et al. 2022) encontró que la “mejor” arquitectura cambia según la receta: decoder-only gana en zero-shot puro, pero el modelo no-causal con objetivo de huecos gana tras multitask finetuning. Y, sorprendentemente, se puede convertir una familia en otra adaptando los pesos, sin reentrenar de cero. Incluso un único modelo puede aprender los tres objetivos a la vez (UL2 (Tay et al. 2022), mezcla de denoisers). Moraleja: la arquitectura decide qué tipo de modelo es, pero la escala y el objetivo de entrenamiento mandan más —y las familias son más fluidas de lo que su nombre sugiere—.

11.7 Resumen

  • Las tres familias comparten piezas; las distingue la máscara (bidireccional vs causal) y la presencia de atención cruzada.
  • Solo encoder (BERT): bidireccional, rellena huecos, comprende (no genera).
  • Solo decoder (GPT/LLaMA): causal, siguiente token, genera — dominante hoy.
  • Encoder-decoder (T5/BART): codificador + decodificador + cruzada, seq2seq.
  • Decoder-only ganó para LLMs por escala + generalidad; encoder-only aún gana en embeddings/clasificación baratos.

Siguiente (Capítulo 11): ya conocemos las arquitecturas. ¿Cómo se entrena de verdad uno de estos modelos? Objetivo, optimización, datos y leyes de escala.

11.8 Ejercicios

  1. El interruptor. ¿Cuál es el único cambio principal que convierte un modelo de “comprensión” en uno de “generación”?
  2. ¿Por qué BERT no escribe un ensayo? Explícalo en términos de su máscara y su objetivo de entrenamiento.
  3. Atención cruzada. En un traductor (T5), ¿quién mira a quién, y para qué?
  4. Elegir herramienta. ¿Qué familia usarías para: (a) clasificar reseñas como positivas/negativas; (b) un chatbot; (c) traducir del inglés al español? Justifica.

Referencias

Tay, Yi et al. 2022. UL2: Unifying Language Learning Paradigms. https://arxiv.org/abs/2205.05131.
Wang, Thomas et al. 2022. What Language Model Architecture and Pretraining Objective Work Best for Zero-Shot Generalization? https://arxiv.org/abs/2204.05832.