La mayoría de pruebas que usamos para evaluar a la inteligencia artificial duran segundos o, como mucho, unos pocos minutos. Responder a una pregunta, resumir un texto, escribir un fragmento de código. Pero el mundo real no funciona así: exige mantener el hilo durante horas, recordar lo que se dijo antes y tomar decisiones encadenadas.
Para poner ese límite bajo el microscopio, un grupo de investigadores decidió llevar a ChatGPT, DeepSeek y otros modelos de lenguaje a un terreno inesperado: una partida de Dragones y Mazmorras.
Un juego de rol como laboratorio de la IA
El experimento, presentado en la conferencia NeurIPS y publicado en OpenReview, fue liderado por Raj Ammanabrolu, de la Universidad de California en San Diego. La idea era simple, pero potente: usar un juego de rol como entorno controlado para evaluar planificación en múltiples pasos, cumplimiento de reglas y coherencia narrativa. En Dragones y Mazmorras no basta con dar una respuesta brillante: hay que recordar habilidades, gestionar recursos, coordinarse con un equipo y sostener un personaje a lo largo del tiempo.
Para evitar que el caos del mundo real contaminara los resultados, los modelos se conectaron a un motor de juego que incorporaba reglas, mapas y recursos. Las campañas se centraron en el combate, con los sistemas asumiendo distintos roles: jugadores, aliados y criaturas enemigas. También hubo partidas contra unos 2.000 jugadores humanos experimentados, lo que permitió comparar el rendimiento de la IA frente a decisiones humanas en escenarios complejos.
Coherencia, estrategia… y pérdida del hilo

Al inicio de las partidas, los modelos se desenvolvían con soltura. Gestionaban acciones disponibles, describían movimientos y seguían las reglas básicas del sistema. Pero a medida que las sesiones se alargaban, aparecía un patrón incómodo: la coherencia empezaba a degradarse. Algunos sistemas tendían a repetir acciones o descripciones; otros olvidaban decisiones tomadas turnos atrás o perdían el tono del personaje que interpretaban.
En la comparación directa, DeepSeek mostró respuestas más breves y repetitivas, mientras que otros modelos variaban mejor su estilo según la clase del personaje. ChatGPT quedó en una posición intermedia: combinó descripciones narrativas con comentarios tácticos, aunque también sufrió pérdidas de consistencia cuando la partida se extendía. Lo sorprendente es que estos fallos no eran errores “tontos”, sino síntomas de una limitación más profunda: mantener un estado mental coherente durante interacciones largas sigue siendo difícil para los grandes modelos de lenguaje.
Lo que un juego dice sobre el futuro de la IA
Puede parecer anecdótico que una IA se equivoque en una mazmorra, pero el paralelismo es directo con aplicaciones del mundo real. Asistentes que deben gestionar procesos largos, sistemas que coordinan tareas en infraestructuras críticas o agentes que interactúan durante horas con personas comparten el mismo problema de fondo: sostener memoria, contexto y estrategia sin perder el hilo.
Los investigadores ya trabajan en simular campañas completas, mucho más largas, para estresar aún más a los modelos. La lección es clara: la IA ha avanzado de forma espectacular en tareas cortas, pero el futuro pasa por aprender a no “olvidarse de la historia” cuando el problema se alarga. Y si hoy se le cae el guion en una partida de Dragones y Mazmorras, mañana podría ocurrir algo parecido en sistemas donde no hay dados, sino decisiones con consecuencias reales.


