34  Transformers multimodales

Dónde estamos. Cerramos la Parte V saliendo del texto. El transformer no es solo para lenguaje: con un truco sencillo —trocear lo que sea en “tokens”— ve imágenes (ViT), une visión y lenguaje (CLIP, LLaVA) y oye audio (Whisper). Y, de regalo, veremos que los ViT desarrollan sumideros de atención igual que el texto —cerrando el círculo con nuestra Parte II—.

34.1 La idea en una frase

Una imagen o un sonido se convierten en una secuencia de tokens (parches, fragmentos de espectrograma) y, a partir de ahí, es el mismo transformer el que los procesa —la arquitectura no cambia, cambia cómo troceas la entrada—.

34.2 Conceptos clave y su papel en el transformer

Antes de entrar en detalle, definimos los términos de este capítulo y para qué sirve cada uno dentro de un transformer:

  • Tokenizar cualquier modalidad. Definición: trocear imagen o audio en “tokens” (parches, fragmentos de espectrograma). En el transformer: es el truco que deja procesar imagen o sonido con el mismo transformer, sin cambiar la arquitectura.
  • Vision Transformer (ViT). Definición: aplicar el transformer a una imagen troceada en parches. En el transformer: trata cada parche como una palabra → “una imagen vale 16×16 palabras”.
  • Parche. Definición: un trozo fijo de imagen (p. ej. 16×16 px) aplanado y proyectado a un vector. En el transformer: es el equivalente visual de un token.
  • CLIP / objetivo contrastivo. Definición: dos encoders (imagen y texto) entrenados para acercar los pares correctos en un espacio compartido. En el transformer: usa el lenguaje como supervisión → clasificación zero-shot.
  • Puente / proyección (Q-Former). Definición: módulo que traduce los rasgos de visión al espacio de tokens del LLM. En el transformer: le “da ojos” a un LLM congelado sin reentrenarlo entero.
  • Cross-attention (atención cruzada). Definición: las queries salen de una modalidad y las keys/values de otra. En el transformer: el mecanismo para que el texto “mire” los parches de la imagen.
  • Estrategias de fusión. Definición: early fusion (concatenar todo), cross-attention dedicada o proyección. En el transformer: las tres maneras de combinar modalidades, con distinto coste y modularidad.
  • Sumideros / register tokens. Definición: tokens artefacto de norma alta que el modelo usa como scratchpad. En el transformer: el mismo fenómeno de los sumideros de atención (Parte II) reaparece en los ViT.

Con esto en mente, empezamos por la imagen.

34.3 Vision Transformer (ViT): la imagen como frase de “sellos”

El ViT (Dosovitskiy et al. 2021) aplicó el transformer a imágenes con un truco directo:

  1. Partir la imagen en parches fijos (p. ej. 16×16 píxeles), sin solapar.
  2. Aplanar y proyectar cada parche a un vector → un “token” (como una palabra).
  3. Añadir positional embeddings y un token [CLS] (cuyo estado final clasifica).
  4. Meterlo todo en un encoder transformer estándar, sin modificar nada.

De ahí su título: “una imagen vale 16×16 palabras”.

🧩 Analogía — la cuadrícula de sellos. Cortas la foto en una cuadrícula de sellos de correos y tratas cada sello como una “palabra”. El transformer entonces “lee” la frase de sellos —atendiendo entre parches igual que atendía entre palabras—.

Advertencia⚠ Honesto — el ViT es hambriento de datos (con matices)

El ViT iguala o supera a las CNN (ResNet) solo si se preentrena con datos masivos (JFT-300M); con ImageNet-1k a secas, queda por debajo. ¿Por qué? Porque le faltan los sesgos inductivos que la convolución trae “de fábrica” —localidad y equivarianza a traslación—; el ViT debe aprenderlos de los datos. Matiz importante: DeiT (Touvron et al. 2021) mostró que con buena augmentación + destilación un ViT compite solo con ImageNet-1k → parte del hambre era de receta, no de arquitectura. No lo sobrevendamos como límite insalvable.

34.4 CLIP: un espacio de significado compartido imagen-texto

¿Y si la supervisión no fueran etiquetas fijas, sino lenguaje? CLIP (Radford et al. 2021) entrena dos encoders —uno de imagen, uno de texto— sobre ~400 millones de pares (imagen, pie de foto) con el objetivo contrastivo del Cap. 26: acercar en un espacio compartido los pares correctos y alejar los incorrectos.

El resultado estrella es la clasificación zero-shot: para clasificar una imagen, embebes frases como “una foto de un {gato}” y le asignas la etiqueta de mayor similitud —sin haber visto ni una etiqueta de ImageNet, iguala a un ResNet-50 supervisado—. La idea grande: el lenguaje natural como señal de supervisión flexible y escalable.

🧩 Analogía — emparejar fotos con sus pies. CLIP aprende a casar fotos con sus descripciones una y otra vez hasta construir un “espacio de significado” compartido: la foto de un perro y las palabras “un perro” caen en el mismo vecindario. Clasificar es entonces ver a qué frase se acerca más la imagen.

Advertencia⚠ Honesto — qué NO hace bien CLIP

Los propios autores lo reconocen: (1) sesgos sociales heredados de datos web sin curar; (2) flojo en tareas abstractas/sistemáticas —p. ej. contar objetos, distinguir modelos finos—; (3) sensible a la formulación del prompt. “Iguala a ResNet-50 zero-shot” es real en ImageNet, no paridad universal.

34.5 Darle ojos a un LLM: modelos visión-lenguaje generativos

Para que un LLM hable sobre una imagen, el patrón común es: encoder de visión → puente/proyección → espacio de tokens del LLM.

  • BLIP-2 (Li et al. 2023): un Q-Former ligero (con queries aprendibles) extrae, vía cross-attention, los rasgos del encoder de imagen congelado y los proyecta al LLM congelado. Solo se entrena el puente → barato.
  • Flamingo (Alayrac et al. 2022): intercala capas de cross-attention con compuerta dentro de un LM congelado (la compuerta arranca en 0 para no romperlo); fuerte few-shot multimodal.
  • LLaVA (Liu et al. 2023): conecta un encoder CLIP a un LLM con una simple proyección e instruction-tunea con datos multimodales sintéticos. Es la receta simple y hoy dominante.

🧩 Analogía — el traductor de “idioma imagen”. El puente (Q-Former o proyección) es un traductor que convierte el “idioma de las imágenes” en tokens que el LLM ya sabe leer —no le enseña a ver desde cero, le pasa la visión en su propio vocabulario—.

34.6 Cómo se fusionan dos modalidades: cross-attention

El mecanismo para que una modalidad “mire” a otra es la atención cruzada: las consultas (Q) salen de una modalidad y las claves/valores (K,V) de la otra —p. ej. el texto consulta a los parches de la imagen—. Tres estrategias:

  • Early fusion / concatenación: unes los tokens de ambas modalidades en una sola secuencia y aplicas self-attention sobre todo (todo atiende a todo). Simple y expresivo, pero coste cuadrático en la longitud combinada. (Es, en esencia, lo que hace LLaVA tras proyectar.)
  • Cross-attention dedicada (Flamingo): flujos separados con capas de cross-attention donde una modalidad consulta a la otra; modular, deja el LM base intacto.
  • Proyección (LLaVA): no añade atención nueva; traduce la visión al espacio del LLM y deja que su self-attention normal mezcle.

🧩 Analogía — preguntas y respuestas. En la atención cruzada, el texto hace las preguntas (las queries) y los parches de la imagen responden (aportan keys y values): cada palabra “mira” a las regiones de la imagen que le importan.

34.7 Audio: convertir el sonido en una “imagen”

El patrón se repite: espectrograma (tipo imagen) o rasgos aprendidos → transformer.

  • Whisper (Radford et al. 2022): un transformer encoder-decoder sobre espectrogramas log-Mel, entrenado con 680 000 horas de audio débilmente supervisado → reconocimiento de voz robusto zero-shot.
  • Wav2Vec 2.0 (Baevski et al. 2020): auto-supervisado —enmascara rasgos y resuelve una tarea contrastiva—, luego fine-tuning con poco audio etiquetado.
  • AST (Gong et al. 2021): un ViT aplicado directamente a espectrogramas —el ejemplo más literal de “audio como imagen”, sin convoluciones—.

34.8 La frontera: multimodal nativo (breve)

La tendencia es entrenar modelos multimodales desde cero (no un encoder + LLM pegados a posteriori) con tokenización unificada (“any-to-any”: texto, imagen, audio en un vocabulario común). Modelos como GPT-4V/4o o Gemini apuntan ahí —pero su arquitectura y datos son propietarios y no publicados, así que los citamos solo por nombre, como dirección del campo, no como hecho verificable—.

34.9 El círculo se cierra: los ViT también tienen sumideros

Conexión bonita con nuestra Parte II. Los ViT desarrollan tokens artefacto de norma altísima en parches de fondo de baja información, que el modelo reutiliza como memoria/scratchpad para cómputo global —y aparecen como picos en los mapas de atención— (Darcet et al. 2023). Es el mismo fenómeno que los sumideros de atención en texto (Cap. 17): tokens “baratos” que acumulan masa de atención desproporcionada. La solución —añadir register tokens dedicados— es el paralelo visual de reservar sumideros en los LLM. (Matiz honesto: trabajos posteriores discuten si todos los ViT los necesitan; fenómeno robusto, con matices por arquitectura.)

Nota🧪 Pruébalo — tafagent

El paralelo sumidero-texto ↔︎ register-imagen es exactamente el tipo de fenómeno que tafagent diagnostica en texto (masa de concentración, η-régimen; Cap. 17). La misma lente de atención a lo largo de la secuencia —γ, sumideros— aplica a los parches de un ViT: la concentración en pocos tokens no es exclusiva del lenguaje.

34.10 Resumen

  • ViT (Dosovitskiy et al. 2021): imagen → parches = tokens → encoder transformer normal. Hambriento de datos por falta de sesgos inductivos —pero DeiT lo mitiga con receta—.
  • CLIP (Radford et al. 2021): encoders de imagen+texto contrastivos (Cap. 26) → espacio compartidoclasificación zero-shot (iguala ResNet-50 en ImageNet). Honesto: flojo contando/abstrayendo, con sesgos.
  • Visión→LLM: patrón encoder → puente → tokens del LLM: BLIP-2 (Q-Former), Flamingo (cross-attention con compuerta), LLaVA (proyección + instruction tuning).
  • Fusión: cross-attention (Q de una modalidad, K/V de otra); early-fusion vs cross-attention vs proyección.
  • Audio: espectrograma → transformer (Whisper, Wav2Vec 2.0, AST).
  • Frontera: multimodal nativo / tokenización unificada (GPT-4o, Gemini — por nombre, no publicado).
  • Círculo cerrado: los ViT tienen sumideros/registers (Darcet et al. 2023) igual que el texto (Parte II).

Siguiente (Parte VI): hemos usado el modelo; ahora toca hacerlo eficiente y desplegable —cuantización, destilación, poda, serving—, donde reaparece nuestra ventana de KV (Cap. 20).

34.11 Ejercicios

  1. Parches. ¿Cómo convierte el ViT una imagen en “tokens”? ¿Qué papel juega el [CLS]?
  2. Hambre de datos. ¿Por qué el ViT necesita más datos que una CNN, y qué demostró DeiT al respecto?
  3. CLIP zero-shot. Explica cómo CLIP clasifica una imagen sin etiquetas de entrenamiento de esa tarea. ¿Con qué objetivo se entrena?
  4. El puente. ¿Qué hace un Q-Former / una proyección para “darle ojos” a un LLM congelado?
  5. Cross-attention. ¿De qué modalidad salen las queries y de cuál las keys/values cuando el texto mira una imagen?
  6. El círculo. ¿Qué tienen en común los register tokens de un ViT y los sumideros de atención de un LLM de texto?

Referencias

Alayrac, Jean-Baptiste et al. 2022. «Flamingo: A Visual Language Model for Few-Shot Learning». NeurIPS. https://arxiv.org/abs/2204.14198.
Baevski, Alexei, Henry Zhou, Abdelrahman Mohamed, y Michael Auli. 2020. «wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations». NeurIPS. https://arxiv.org/abs/2006.11477.
Darcet, Timothée, Maxime Oquab, Julien Mairal, y Piotr Bojanowski. 2023. Vision Transformers Need Registers. https://arxiv.org/abs/2309.16588.
Dosovitskiy, Alexey et al. 2021. «An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale». ICLR. https://arxiv.org/abs/2010.11929.
Gong, Yuan, Yu-An Chung, y James Glass. 2021. «AST: Audio Spectrogram Transformer». Interspeech. https://arxiv.org/abs/2104.01778.
Li, Junnan, Dongxu Li, Silvio Savarese, y Steven Hoi. 2023. «BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models». ICML. https://arxiv.org/abs/2301.12597.
Liu, Haotian, Chunyuan Li, Qingyang Wu, y Yong Jae Lee. 2023. «Visual Instruction Tuning». NeurIPS. https://arxiv.org/abs/2304.08485.
Radford, Alec, Jong Wook Kim, Chris Hallacy, et al. 2021. «Learning Transferable Visual Models From Natural Language Supervision». ICML. https://arxiv.org/abs/2103.00020.
Radford, Alec, Jong Wook Kim, Tao Xu, Greg Brockman, Christine McLeavey, y Ilya Sutskever. 2022. Robust Speech Recognition via Large-Scale Weak Supervision. https://arxiv.org/abs/2212.04356.
Touvron, Hugo, Matthieu Cord, Matthijs Douze, Francisco Massa, Alexandre Sablayrolles, y Hervé Jégou. 2021. «Training Data-Efficient Image Transformers and Distillation through Attention». ICML. https://arxiv.org/abs/2012.12877.