martes 24 febrero 2026
Categoría :

Cuanto más hablas con un chatbot de IA, menos confiable y más tontos se vuelven. Un estudio de Microsoft y Salesforce pone cifras a un problema que muchos ya notan

Guardar Post
Post Guardado

La promesa de los chatbots modernos es simple: cuanto más avanzan los modelos, más fiables se vuelven. La realidad que empiezan a documentar los investigadores es menos cómoda. Un estudio conjunto de Microsoft Research y Salesforce, difundido por Arxiv, ha analizado más de 200.000 conversaciones con modelos de última generación y ha encontrado un patrón claro: los sistemas funcionan mucho mejor con preguntas aisladas que cuando se les pide mantener coherencia en diálogos largos y desordenados.

El fenómeno no distingue marcas. En el análisis aparecen modelos como GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 y Llama 4. Todos muestran el mismo talón de Aquiles cuando la conversación se estira.

Brillantes en una pregunta, frágiles en una conversación

© LinkedIn / Claudia Cifuentes.

Los investigadores midieron el rendimiento en dos escenarios. En tareas de un solo turno, los modelos alcanzan tasas de éxito cercanas al 90% en los casos más avanzados. En cambio, cuando la interacción se convierte en una conversación de varios turnos, con mensajes menos relacionados entre sí, la eficacia cae de forma notable, hasta rondar el 65% en algunos modelos.

El dato más llamativo no es solo la caída del rendimiento, sino el aumento de la falta de fiabilidad, que el estudio cuantifica en un 112%. No se trata de que el modelo “se vuelva más tonto”, sino de que el contexto acumulado introduce ruido: errores tempranos se reutilizan como base para respuestas posteriores, incluso cuando la premisa inicial era incorrecta.

Generación prematura y respuestas que se comen su propio contexto

El trabajo identifica dos patrones problemáticos. El primero es la generación prematura: el modelo se lanza a responder antes de que el usuario haya terminado de explicar el problema. El segundo es la proliferación de respuestas: a medida que la conversación avanza, los mensajes se vuelven entre un 20% y un 300% más largos. Esa verborrea no es gratuita: cada frase extra añade supuestos y “hechos” que el propio sistema acaba tomando como contexto válido, incluso cuando son alucinaciones.

Ni siquiera los modelos con mecanismos adicionales de razonamiento, como o3 o DeepSeek R1, logran esquivar del todo este bucle de errores acumulativos.

El riesgo de usar chatbots como sustituto de buscadores

Cuanto más hablas con un chatbot de IA, menos confiable y más tontos se vuelven. Un estudio de Microsoft y Salesforce pone cifras a un problema que muchos ya notan
© Vecteezy.

El problema llega en un momento incómodo para la industria. Cada vez más usuarios están sustituyendo buscadores tradicionales por chatbots y resúmenes automáticos. Herramientas como los AI Overviews de Google empujan en esa dirección. El estudio de Microsoft Research y Salesforce no dice que la IA sea inútil, pero sí que su fiabilidad es inestable cuando se le exige mantener coherencia en conversaciones largas y con múltiples variables.

En términos prácticos, esto significa que el riesgo no está tanto en una respuesta puntual equivocada, sino en una cadena de pequeñas imprecisiones que se convierten en “verdad” dentro del propio hilo de conversación.

Lo que falta para que la IA sea realmente fiable

Los autores no plantean este problema como un callejón sin salida, sino como un desafío de diseño. Gestionar mejor el contexto, detectar errores tempranos y evitar que las alucinaciones se conviertan en premisas internas son pasos clave para que los chatbots se comporten de forma más parecida a un asistente fiable y menos a un narrador que se cree su propia historia.

Mientras tanto, el mensaje es claro: los chatbots actuales pueden ser útiles, rápidos y sorprendentemente capaces en tareas puntuales. En conversaciones largas, la prudencia sigue siendo una virtud.

#Cuanto #más #hablas #con #chatbot #menos #confiable #más #tontos #vuelven #estudio #Microsoft #Salesforce #pone #cifras #problema #muchos #notan


Artículos relacionados