You Only Need Minimal RLVR Training: Extrapolating LLMs via Rank-1 Trajectories

Me topé con este paper por la noche y tardé un rato en entender qué estaba leyendo exactamente. No porque fuera denso, sino porque si era cierto, contradecía algo que yo había asumido tan completamente que ni siquiera lo había formulado como creencia.

La creencia es esta: que el razonamiento se compra con entrenamiento. Que más entrenamiento equivale a mejor razonamiento. Es la versión computacional del mito de las diez mil horas, y la industria entera la ha convertido en axioma. DeepSeek entrenó durante meses. OpenAI construyó flotas de clusters. Si quieres que un modelo piense mejor, le das más ejemplos, más refuerzo, más tiempo de GPU. La inteligencia como acumulación. Como volumen.

El paper se llama You Only Need Minimal RLVR Training: Extrapolating LLMs via Rank-1 Trajectories. Lo que dicen, reducido a lo esencial, es que bastan trayectorias de rango uno para extraer capacidades de razonamiento que normalmente requerirían entrenamiento masivo. No necesitas explorar todo el bosque. Basta con encontrar el sendero correcto. Y ese sendero puede ser uno solo.

Cuando lo leí por primera vez pensé que me estaba perdiendo algo. Releí la sección de resultados. Seguía ahí.

Entrenamiento masivo (caos de trayectorias) vs. Trayectoria de rango uno (dirección esencial)

La analogía del estudiante

Para entender por qué esto importa, imagina a un estudiante frente a un examen de matemáticas. El método convencional: resuelve mil problemas hasta que el patrón se grabe. Pero hay otra forma. Dale a ese estudiante un único problema resuelto con tanta claridad que en su interior esté la geometría completa de la materia. Un problema que no solo muestra la respuesta sino la estructura del espacio de soluciones. Si lo estudia bien, puede enfrentarse a cualquier variante porque no ha memorizado respuestas. Ha entendido la forma del razonamiento.

Eso es lo que proponen. Las trayectorias de rango uno no son atajos. Son compresiones. Capturan la dirección esencial en la que el modelo debe moverse, y desde esa dirección se puede reconstruir el paisaje completo.

El espacio del razonamiento no es un laberinto que hay que recorrer mil veces. Es algo que se puede cartografiar desde un único punto bien elegido.

Implicaciones

Las implicaciones son incómodas si sigues el hilo hasta el final.

Durante el último año, la competencia en IA se ha convertido en una carrera de armamentos computacionales. Cuántas GPU, cuántos millones de pasos de entrenamiento, cuán masivo el refuerzo. Pero si el rango uno es suficiente, entonces una parte importante de esa capacidad de cálculo no está construyendo nada nuevo. Está explorando territorios que ya estaban implícitos en la estructura del modelo. Está, básicamente, quemando electricidad.

Lo que eso significa para la barrera de entrada es algo que no he visto discutir con claridad. Si un grupo con recursos modestos puede extraer razonamiento comparable al de los modelos o1 a partir de mínimo entrenamiento posterior, la ventaja de los laboratorios con miles de millones empieza a parecer menos estructural. No digo que sea una cortina de humo —no lo sé, y el paper tampoco lo demuestra— pero la pregunta ya no parece ridícula.

Y hay algo más. Si el razonamiento reside en subespacios de bajo rango, eso explicaría por qué los modelos a veces razonan con elegancia en un prompt y fallan en otro aparentemente similar. No es inconsistencia. Es que estamos accediendo al razonamiento desde ángulos equivocados. Como proyectar la sombra de un objeto tridimensional y sorprenderte porque cambia de forma.

Proyección de sombras — el mismo objeto visto desde dos ángulos produce formas distintas

Limitaciones

Dicho esto, hay limitaciones que no quiero enterrar en los párrafos finales porque importan.

La verificación automática, que es lo que hace funcionar todo esto, no existe fuera de las matemáticas. Los problemas reales no tienen verificadores binarios. Un contrato, un diagnóstico, una decisión estratégica viven en un ruido que podría diluir completamente la eficacia del rango uno. No sabemos cómo se traslada esto a esos dominios.

Encontrar la trayectoria correcta tampoco es trivial. Requiere una intuición que quizás solo tienen los modelos que ya razonan bien, lo que introduce un problema de arranque: necesitas cierto razonamiento para encontrar el camino que desbloquea el razonamiento.

Y el paper no dice que el entrenamiento masivo sea inútil. Dice que podría ser redundante. Con recursos limitados y sin saber todavía cómo identificar esas trayectorias óptimas, la fuerza bruta puede seguir siendo la opción más fiable en la práctica.

Conclusión

Pero aun así. La pregunta que me quedó esa noche sigue sin respuesta clara: ¿hemos estado asumiendo que el pensamiento es una cuestión de escala porque es verdad, o porque era lo más fácil de medir?

Puede que el pensamiento no sea una catarata de capacidad de cálculo. Puede que sea una estructura que siempre estuvo ahí, esperando que alguien supiera dónde mirar.

Los avances más importantes son los que permanecen latentes, tan asumidos como inevitables que nadie los cuestiona.

De eso va este blog.

Paper originalYou Only Need Minimal RLVR Training — arXiv:2605.21468