InfiniRetri: Lectura Humana para contextos extensos en LLMs

Inspiración Biomimética

“Nuestro método, inspirado en el proceso humano de leer libros, aborda el desafío de procesar textos que exceden la ventana de contexto de los LLMs. A pesar del limitado campo de visión que nos permite ver solo una página a la vez, podemos comprender un libro entero leyendo cada página secuencialmente. En este proceso, el cerebro actúa como un caché.”

InfiniRetri propone que los LLMs no necesitan ventanas de contexto gigantescas si aprenden a gestionar la información como lo hacemos nosotros: integrando fragmentos actuales con una memoria externa persistente que recupera lo relevante en el momento preciso.

La Atención como Guía

El mecanismo de atención, especialmente en las capas finales, funciona como un sistema de recuperación natural. El modelo "sabe" dónde mirar incluso en contextos complejos.

Simplicidad Arquitectónica

A diferencia de SnapKV, InfiniRetri utiliza atención estándar en lugar de Slide Window Attention (SWA), simplificando drásticamente la fase de inferencia.

Arquitectura de Memoria

Token IDs vs. KV States

En lugar de almacenar los estados Key-Value tradicionales de cada capa, InfiniRetri guarda los Token IDs fuera del modelo, fusionándolos antes de la inferencia.

Unidades Semánticas completas

El caché mantiene sentencias completas con los Top-K tokens más relevantes. Esto respeta la estructura sintáctica y semántica del lenguaje, crucial para la comprensión a largo plazo.

Los avances más importantes son los que permanecen latentes, tan asumidos como inevitables que nadie los cuestiona.

De eso va este blog.

Paper originalLeer InfiniRetri en ArXiv