You Only Need Minimal RLVR Training: Extrapolating LLMs via Rank-1 Trajectories
Análisis del paper que demuestra que bastan trayectorias de rango uno para extraer capacidades de razonamiento que normalmente requerirían entrenamiento masivo.
Análisis técnico de papers de IA, noticias de ciberseguridad y arquitecturas emergentes. Todo el contenido en español.
Análisis del paper que demuestra que bastan trayectorias de rango uno para extraer capacidades de razonamiento que normalmente requerirían entrenamiento masivo.
Meta propone agentes autorreferenciales que unifican Task Agent y Meta-Agent en un único programa editable, eliminando la dependencia del código estático humano y habilitando una automejora verdaderamente generalizable.
El equipo de Kimi (Moonshot AI) reemplaza las conexiones residuales fijas por atención softmax entre capas, resolviendo la dilución de PreNorm que ha permanecido intacta desde hace años.
Las versiones 1.82.7 y 1.82.8 de LiteLLM fueron comprometidas en PyPI con un infostealer que abusaba de archivos .pth para ejecutarse al arrancar Python, sin necesidad de importar el paquete.
Inspirado en la lectura humana, logra procesar contextos que exceden la ventana del modelo mediante una caché de sentencias y recuperación natural.