InfiniRetri: Lectura Humana para Contextos Infinitos
Cómo procesar textos que exceden la ventana de contexto de los LLMs mediante un sistema de recuperación natural y caché por sentencias.
Inspiración Biomimética
InfiniRetri propone que los LLMs no necesitan ventanas de contexto gigantescas si aprenden a gestionar la información como lo hacemos nosotros: integrando fragmentos actuales con una memoria externa persistente que recupera lo relevante en el momento preciso.
La Atención como Guía
El mecanismo de atención, especialmente en las capas finales, funciona como un sistema de recuperación natural. El modelo "sabe" dónde mirar incluso en contextos complejos.
Simplicidad Arquitectónica
A diferencia de SnapKV, InfiniRetri utiliza atención estándar en lugar de Slide Window Attention (SWA), simplificando drásticamente la fase de inferencia.
Arquitectura de Memoria
Token IDs vs. KV States
En lugar de almacenar los estados Key-Value tradicionales de cada capa, InfiniRetri guarda los Token IDs fuera del modelo, fusionándolos antes de la inferencia.
Unidades Semánticas completas
El caché mantiene sentencias completas con los Top-K tokens más relevantes. Esto respeta la estructura sintáctica y semántica del lenguaje, crucial para la comprensión a largo plazo.
Los avances más importantes son los que permanecen latentes, tan asumidos como inevitables que nadie los cuestiona.
De eso va este blog.