Attention Residuals: La evolución de las conexiones residuales en modelos fundacionales

El pasado 16 de marzo de 2026, el equipo de Kimi (Moonshot AI) publicó su trabajo titulado Attention Residuals. La repercusión fue inmediata y, la comunidad investigadora no tardó en hacerse eco, señalando el artículo como una propuesta que introduce una dirección prometedora en el diseño de arquitecturas.

¿El motivo de tanto revuelo? La innovación principal reside en la modificación de la arquitectura que regula el flujo de información dentro de la red neuronal. Con ello, abordan una limitación que no había sido abordada de forma directa en la arquitectura estándar de los Transformers.

Analicemos el problema paso a paso.

Para entenderlo, imagina a un grupo de 100 escritores que deben redactar una novela pasándose un único documento de forma secuencial. El primer escritor redacta el capítulo inicial y se lo pasa al segundo. El segundo lo lee, añade sus propias páginas al final del mismo documento y se lo pasa al tercero, y así sucesivamente.

El Problema

En el aprendizaje profundo moderno, desde la introducción de ResNet, el "pasar el documento y añadir algo nuevo" ha sido el estándar de facto para mitigar el desvanecimiento del gradiente a través de las conexiones residuales. La actualización clásica se define matemáticamente como:

hl = hl−1 + fl−1(hl−1)

Sin embargo, esto tiene dos grandes problemas:

01Crecimiento descontrolado y la Dilución de PreNorm

Volviendo al ejemplo, cuando el documento llega a los últimos escritores, ya no es un puñado de páginas, sino un conjunto gigantesco. Esto ocurre porque cada escritor (serían las capas de la red) recibe una suma no ponderada de todo lo anterior y añade sus propias páginas al mismo documento.

En las arquitecturas modernas basadas en PreNorm, la magnitud de este "documento" tiende a crecer con la profundidad, aproximadamente a O(L) respecto a la profundidad. A este fenómeno se le conoce como dilución de PreNorm.

¿Qué implica esto? Que a medida que el texto gana páginas (profundidad), las ideas de los primeros autores no desaparecen, pero quedan cada vez más ahogadas. Siguen estando presentes, pero pierden peso frente a la acumulación de las aportaciones posteriores, volviéndose progresivamente más difíciles de distinguir o aislar en el resultado final. Es decir, si el escritor número 80 no puede distinguir las ideas del escritor número 3, la red tampoco dispone de un mecanismo explícito para distinguir o recuperar las contribuciones de sus capas tempranas.

02Single-state bottleneck

El problema no es solo que las ideas queden diluidas. El documento final, en sí mismo, es el único material disponible para cualquier escritor posterior. No existe ningún borrador limpio del capítulo X ni ninguna forma de consultarlo por separado. Hablando de redes neuronales, esto supone un cuello de botella de estado único. Las capas profundas no pueden recuperar selectivamente features puros extraídos por una capa inicial específica, viéndose obligadas a trabajar con una única representación densa sin poder separarse.

Diagrama comparativo: residual clásico vs Full AttnRes con la analogía de escritores
Residual clásico vs. Full AttnRes — analogía de escritores

La solución: Dualidad Tiempo-Profundidad y Full AttnRes

Irónicamente, la solución a este laberinto estructural llevaba casi una década escondida en otro eje, el del tiempo. Pensemos en las antiguas Redes Neuronales Recurrentes (RNNs). Al procesar una frase larga, comprimían progresivamente la información de cada palabra en un único estado oculto (ht). Cuando llegaban a la palabra 100, la información de la palabra 5 prácticamente había desaparecido, sobreescrita por todo lo que vino después.

¿Cómo resolvió el Transformer original ese cuello de botella? Con el mecanismo de atención. En lugar de comprimir la memoria, le dio a la red la capacidad de mirar hacia atrás y recuperar selectivamente la información de palabras anteriores, asignándole un peso a cada una según su relevancia.

Los autores de este paper trazan un paralelo con ese razonamiento y lo trasladan al eje de la profundidad. La dinámica no es idéntica, las RNNs perdían información por compresión obligatoria, mientras que los Transformers la diluyen por mezcla distribuida, pero la pregunta estructural es análoga. Si la atención resolvió la incapacidad de recuperar el pasado en el tiempo, ¿por qué no aplicar el mismo principio entre capas? Volviendo a nuestro ejemplo, en lugar de que cada escritor trabaje únicamente con el documento acumulado, ahora puede consultar directamente el borrador limpio de cualquier capítulo anterior y decidir cuánta atención prestarle. El escritor número 80 no está obligado a leer las 800 páginas juntas puede ir al capítulo 3 si ese es el que más le importa.

Full Attention Residuals (AttnRes) lleva esta idea a la práctica reemplazando la suma estática (donde todo se acumula por igual) por una agregación ponderada. El escritor evalúa los capítulos previos y decide qué porcentaje de importancia darle a cada uno (por ejemplo, usar un 80% del capítulo 3, un 20% del capítulo 1 y descartar el resto).

hl = ∑(i=0 to l−1) αi→l · vi
vi

Son las representaciones de salida de cada capa anterior (siendo v₀ el embedding inicial). En la analogía, son los borradores limpios de cada capítulo, disponibles para consulta directa.

αi→l

Son los pesos de atención calculados mediante Softmax. Es el criterio con el que cada capa decide qué relevancia dar a cada capa anterior.

En lugar de proyectar queries a partir del estado oculto, cada capa aprende un pseudo-query vector único (wl ∈ ℝd). Cada escritor tiene su propio criterio de lectura, independiente del contenido del documento acumulado.

Esto introduce un matiz importante. A diferencia de la self-attention estándar, el criterio de selección entre capas no depende del input que está procesando la red en ese momento, sino que está aprendido de forma estática para cada capa. La pregunta que cada capa hace, "¿a qué capa anterior debo prestarle atención?", es fija e independiente del texto de entrada.

Un detalle crítico de diseño es la aplicación de un RMSNorm sobre las keys (ki). En la analogía, esto equivale a que ningún capítulo pueda imponerse sobre los demás solo por ser más extenso o más ruidoso. Se normaliza el peso de cada texto antes de decidir a cuál prestar atención. En el mundo de las redes neuronales, esto evita que las activaciones de ciertas capas "exploten" numéricamente y dominen la atención.

El reto del escalado: Block AttnRes

Full AttnRes resuelve la dilución y el estado único, pero en entrenamiento a gran escala aparece una limitación práctica. Mantener los borradores limpios de todos los capítulos anteriores disponibles simultáneamente tiene un coste. Si hay miles de escritores trabajando en paralelo, guardar y comunicar todas esas copias dispara el coste de memoria a O(Ld).

Para solucionar esta problemática, los autores del artículo proponen Block AttnRes. La idea es que los escritores se organizan en N grupos (bloques). Dentro de cada grupo, siguen trabajando como antes, pasándose el documento acumulado. Pero entre grupos, en lugar de compartir todo el manuscrito, cada uno entrega un resumen consolidado de su trabajo. La atención Softmax opera sobre esos resúmenes. El artículo demuestra que no hace falta mirar las 100 capas individualmente. Al dividir la red en N bloques, se recupera casi toda la precisión del modelo original, pero con un coste drásticamente menor, reduciendo el coste de memoria y comunicación de O(Ld) a O(Nd).

Donde:

L (layers):Es el número total de capas o escritores.
d (dimension):Es el tamaño de la información.
N (Blocks):Es el número de grupos. Al pasar de L a N, el coste deja de depender de lo profunda que sea la red (puede ser de cientos de capas).

Formalmente, las L capas se agrupan en N bloques:

Suma intra-bloque:

Dentro de un bloque, las salidas se acumulan mediante la suma residual estándar.

Atención inter-bloque:

La atención Softmax se aplica sobre los N bloques anteriores y la suma parcial del bloque actual, permitiendo a la red integrar el pasado lejano con el contexto inmediato.

Para que esto funcione eficientemente, los investigadores implementaron dos soluciones adicionales:

Cross-stage caching en entrenamiento

En modelos gigantes repartidos en varias GPUs, lo normal sería tener que reenviar toda la historia de bloques en cada salto. Para evitar este tráfico redundante, cada GPU cachea localmente los bloques que ya recibió. Así, en lugar de transmitir la "enciclopedia completa" en cada paso, las GPUs solo se comunican los bloques incrementales (los nuevos "fascículos" terminados). Esto reduce drásticamente el coste de comunicación entre GPUs, de cuadrático a lineal respecto al número de etapas del pipeline.

Two-phase computation en inferencia

A la hora de generar texto, calcular a qué capa prestar atención paso a paso sería lentísimo. Para evitarlo, los autores dividen el cálculo en dos fases que luego se fusionan directamente en la memoria de la GPU (mediante un truco matemático llamado online softmax).

Fase 1

Como los criterios de búsqueda (pseudo-queries) ya están aprendidos y no dependen del texto que está entrando, la red escanea todos los bloques previos de golpe. Es una operación masiva y paralela que deja el cálculo del Softmax "abierto". En nuestra analogía, el escritor ya sabe qué capítulos le interesan antes de empezar a escribir y los tiene marcados.

Fase 2

Mientras se procesa la capa actual (que sí depende de la anterior), el resultado se fusiona en tiempo real con la Fase 1, actualizando los pesos finales sin tener que volver a leer los datos pesados de la memoria de la GPU (HBM).

El resultado neto de esta arquitectura no es una reducción en la latencia bruta por operación, conviene no confundir con una mejora en velocidad. Cada capa sigue costando lo mismo. Lo que cambia es cuánto saca el modelo de cada token que procesa. Los experimentos del paper muestran que Block AttnRes alcanza el mismo rendimiento que la arquitectura estándar pero con un 25% menos de cómputo de entrenamiento. No signficia que cada paso sea más rapido, si no que se necesitan menos pasos para alcanzar el mismo rendimiento.

Conclusión

Desde una perspectiva pura de álgebra lineal, los autores de este artículo demuestran que las variantes residuales que se habían intentado en el pasado (como las redes Highway o mHC) actuaban, en la práctica, como una atención lineal sobre la profundidad (depth-wise linear attention). En el mundo de nuestros escritores, eso equivalía a intentar leer todos los capítulos anteriores sin poder distinguir cuál era cuál. Se intuía el volumen de lo escrito, pero era imposible aislar una idea específica del pasado.

Lo que logra AttnRes es dar el salto definitivo hacia la atención Softmax en el eje de la profundidad (depth-wise softmax attention). Ahora cada escritor puede consultar directamente el capítulo exacto que necesita, con total precisión, ignorando el resto. De hecho, el estudio de estos pesos revela un hallazgo fascinante, la aparición de "sumideros de atención" (Attention Sinks). Son capítulos específicos, borradores tan fundamentales que casi todos los escritores posteriores deciden, por sistema, volver a consultarlos para no perder el rumbo de la novela.

Al igual que hace casi una década el mecanismo de atención resolvió la incapacidad de las arquitecturas recurrentes para recordar el inicio de un texto al llegar al final, Kimi acaba de evidenciar que estábamos sufriendo un problema análogo en el eje de la profundidad. Han demostrado que el enrutamiento estático (esa obligación de que 100 escritores se pasen ciegamente un único manuscrito que engorda sin control a lo largo de una cadena de montaje) era una limitación estructural que aceptábamos como inevitable. Modelos como Kimi Linear, entrenados con AttnRes, ya demuestran en la práctica que la profundidad puede tratarse como un recurso recuperable, algo que el modelo gestiona activamente en lugar de acumular a ciegas.

Al unificar la lógica de la atención tanto para el tiempo como para la profundidad, AttnRes inaugura una era donde las redes neuronales pueden gestionar conscientemente su propio historial de procesamiento interno.

Los avances más importantes son los que permanecen latentes, tan asumidos como inevitables que nadie los cuestiona.

De eso va este blog.