Entrada: ChatGPT y DeepSeek desafiados a jugar Dragones y Mazmorras: esto revela sobre el futuro de la IA

Un estudio reciente presentó una prueba poco convencional, pero reveladora, para evaluar cómo se comportan grandes modelos de inteligencia artificial en tareas complejas y prolongadas: hacer que ChatGPT y DeepSeek participaran en partidas del famoso juego de rol Dragones y Mazmorras (Dungeons & Dragons).

La investigación fue presentada en la conferencia NeurIPS y publicada en OpenReview, y estuvo dirigida por Raj Ammanabrolu, profesor de la Universidad de California en San Diego. Su objetivo fue medir cómo los modelos de IA manejan planificación a largo plazo, seguimiento de reglas y toma de decisiones encadenada, habilidades muy distintas de lo que normalmente se pide en pruebas cortas de IA.

 Un juego de rol como prueba de inteligencia

Los investigadores integraron los modelos en un entorno controlado del juego que simulaba reglas, mapas y recursos. Esto permitió que las IA actuaran como personajes dentro de campañas centradas en combate, exploración y decisión estratégica, enfrentándose no solo entre sí sino también a jugadores humanos experimentados (hasta 2.000 participantes).

Este tipo de prueba sirve como banco de pruebas para evaluar memoria contextual, estrategia a largo plazo y coherencia narrativa, aspectos que van más allá de las típicas respuestas de texto corto que se suelen pedir a una IA.

Resultados: diferencias entre modelos

Según los resultados publicados:

  • DeepSeek tendió a dar respuestas más breves y repetitivas, con menor desarrollo narrativo o estratégico sostenido.

  • ChatGPT, en cambio, logró combinar descripciones más elaboradas con comentarios tácticos, aunque tampoco estuvo libre de perder consistencia en partidas largas.

En general, los modelos demostraron que funcionan bastante bien en simulaciones basadas en reglas, pero que todos sufren degradación progresiva cuando las tareas exigen mantener coherencia y objetivos a largo plazo, lo cual es un reto real incluso para aplicaciones más allá de juegos.

Te interesa?  Apple y el dilema del innovador: retos en inteligencia artificial

¿Qué nos dice este experimento sobre el futuro de la IA?

Este tipo de evaluación sugiere que:

  • Muchas pruebas actuales de IA —como resolver preguntas aisladas o tareas cortas— no capturan desafíos reales que aparecen en escenarios extendidos o complejos.

  • La capacidad de una IA para planificar varios pasos, recordar información relevante y gestionar recursos es un área de desarrollo clave si queremos que estos sistemas funcionen bien en aplicaciones críticas (por ejemplo, asistencia clínica, planificación logística o sistemas autónomos).

  • Juegos como Dragones y Mazmorras no son solo entretenimiento: son entornos ricos en reglas, estrategias y memoria de contexto, lo que los convierte en evaluaciones útiles para medir habilidades avanzadas de IA.

Picture of Lora Helmin

Lora Helmin

Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Related Popular Posts

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua.