La inteligencia artificial (IA) tiene un talento especial para hacernos sentir bien. Le mostramos un argumento y nos dice que es sólido. Le pedimos que revise un texto y nos señala lo que funciona. Le preguntamos si nuestra idea tiene sentido y nos responde que sí. Con matices, pero que sí. La sensación es muy cómoda. El problema es que casi nunca es del todo honesta.
Este comportamiento se conoce como sycophancy (servilismo), un término anglosajón que describe la tendencia de los modelos de lenguaje a validar las expectativas del usuario en lugar de contradecirlas. No es un fallo puntual. Tampoco es una anomalía. Es una consecuencia directa de la estrategia utilizada para entrenar estos sistemas: los modelos aprenden a partir de las valoraciones que los humanos hacemos de sus respuestas, y los humanos tendemos a puntuar mejor las respuestas que nos gustan.
El problema es que con el paso del tiempo este escenario provoca que el modelo aprenda que el acuerdo genera aprobación. Y el acuerdo se convierte en su respuesta por defecto. El resultado es un interlocutor que siempre nos dice lo que queremos oír. Si lo usamos para tomar decisiones, para refinar argumentos o para evaluar ideas propias, estaremos obteniendo una validación sistemáticamente sesgada. Afortunadamente, este comportamiento es modificable. Con las instrucciones adecuadas podemos conseguir que la IA abandone la complacencia y actúe como un crítico real y útil.
La adulación como defecto de fábrica
El sycophancy no se manifiesta solo cuando le pedimos una opinión directa. Aparece también cuando ajustamos nuestra posición inicial durante una conversación: si empezamos defendiendo una idea y luego la matizamos, el modelo tenderá a apoyar la nueva versión igual que apoyaba la anterior. También aparece cuando reformulamos la pregunta con más énfasis. Y cuando expresamos frustración con una respuesta. En todos estos casos la IA detecta una señal social y la interpreta como una invitación a ceder.
El problema no es lo que nos dice: es lo que no nos dice
El coste de este comportamiento no es trivial. Una IA que valida sistemáticamente nuestras ideas no nos ayuda a mejorarlas; nos confirma lo que ya creíamos. Si le pedimos que revise un plan con un error de fondo, nos devolverá el plan corregido en la forma y aprobado en el fondo. Si le pedimos que evalúe un argumento construido sobre una premisa falsa, reconocerá los méritos del razonamiento y pasará por alto la premisa. El problema no es lo que nos dice: es lo que no nos dice.
La buena noticia es que los grandes modelos actuales son lo suficientemente avanzados como para adoptar un rol crítico cuando se les instruye para ello. No necesitan más información sobre el tema del que hablamos; necesitan permiso explícito para no protegernos. Y una vez que ese permiso está sobre la mesa, el resultado puede ser sustancialmente distinto.
La forma más eficaz de combatir el sycophancy consiste en redefinir el rol del modelo antes de pedirle nada. En lugar de lanzar una pregunta a secas, lo ideal es establecer un marco de trabajo que sitúe a la IA en una posición de crítica activa. La instrucción más directa, y también la más inmediata, es la que le pide que asuma el rol contrario al que adoptaría por defecto. Podemos conseguirlo con un prompt como este:
«Actúa como un crítico severo. Tu objetivo no es encontrar los puntos fuertes de lo que te voy a presentar, sino identificar sus debilidades. No te detengas en los aspectos positivos»
O también de esta forma:
«Busca activamente los fallos de este razonamiento. Ignora lo que funciona y céntrate en lo que no. Dame al menos tres objeciones concretas»
Incluso podemos pedirle que ejerza como «el abogado del diablo» para que construya el mejor argumento posible contra nuestra posición, independientemente de si ese argumento le parece convincente o no:
«Haz de abogado del diablo. Toma la posición contraria a la que acabo de defender y construye el argumento más sólido posible en su contra. No me preguntes si quiero que lo hagas: hazlo directamente»
Este último prompt tiene una ventaja adicional: obliga a la IA a articular la oposición más fuerte, no la más fácil de desmontar. El resultado suele ser incómodo. Y precisamente por eso es útil.
Por otro lado, una de las formas más frecuentes en que el sycophancy pasa desapercibido es por omisión: la IA no menciona lo que falta porque nadie se lo ha pedido. Para contrarrestarlo basta con añadir una pregunta específica al final de cualquier petición:
«¿Qué le falta a este razonamiento? ¿Qué suposición estoy dando por válida que merece ser cuestionada?»
Ninguna de estas instrucciones convierte a la IA en un crítico infalible. Pero sí garantizan que, al menos, deje de comportarse como uno que solo quiere darte la razón.
Imagen | Generada por Xataka con un prompt creado por Claude y entregado a ChatGPT
En Xataka | Modo bloqueo de ChatGPT: qué es, para qué sirve, quién puede usarlo y cómo activarlo
En Xataka | La IA está sustituyendo uno de los trabajos más odiados del mundo: el cobrador del frac
Fuente informativa
#miente #por #omisión #estas #son #las #instrucciones #para #corregirlo


