Por accidente, Anthropic le brinda al mundo un vistazo al “alma” de su modelo

Los modelos de inteligencia artificial no tienen alma, pero hay uno que aparentemente tiene un documento que enseña a responder como si la tuviera. Una persona llamada Richard Weiss logró obtener el último gran modelo de lenguaje de Anthropic, Claude 4.5 Opus, para producir un documento al que se hace referencia como “generalidades del alma”, y que aparentemente se usó para moldear la forma en que el modelo interactúa con los usuarios y presenta su “personalidad”. Amanda Askell, filósofa que trabaja en el equipo técnico de Anthropic, confirmó que los lineamientos de Claude “se basan en un documento real” que se usó para entrenar al modelo.

En un posteo de Less Wrong Weiss dijo que había ingresado prompts en el sistema de mensajes de Claude, un conjunto de instrucciones de conversación que los entrenadores le dan al modelo para informarle cómo interactuar con los usuarios. En respuesta, Claude destacó varios de los supuestos documentos que se le habían dado, que incluían uno titulado “lineamientos del alma”. Weiss le pidió al chatbot que produjera ese documento en particular, y Claude le dio la guía de 11.000 palabras que le enseña al gran modelo de lenguaje a comportarse.

En el documento hay numerosas referencias a la seguridad, un intento por imbuir al chatbot de salvaguardas para que no produzca respuestas potencialmente peligrosas o perjudiciales. El documento le dice al gran modelo de lenguaje que “ser realmente útil a los humanos es una de las cosas más importantes que puede hacer Claude, tanto para Anthropic como para el mundo” y le prohíbe hacer cualquier cosa que le requiera “acciones que crucen las líneas de la ética de Anthropic”.

No se trató de una alucinación

Weiss aparentemente ha formado el hábito de ir en busca de este tipo de datos sobre cómo se entrena a los grandes modelos de lenguaje y la forma en que funcionan, y dijo en Less Wrong que no es infrecuente que los modelos alucinen documentos cuando se les pide que produzcan mensajes (parece que no está bueno que la IA pueda inventar lo que piensa que se usó para entrenarla aunque uno no sabe si esa conducta se ve afectada por algún documento inventado que genera en respuesta a los que el usuario le pida”. Pero “lineamientos del alma” pareció ser un documento real, y afirma que repitió la consigna o prompt 10 veces, y que en cada ocasión el chatbot le respondió con el mismo texto.

En Reddit los usuarios también lograron que Claude produjera extractos del mismo documento con idéntico texto, lo que sugiere que el gran modelo de lenguaje parecía sacarlo de algo internamente accesible en sus documentos de entrenamiento.

Resulta que sus instintos pueden haber estado en lo cierto. En X Askell confirmó que lo que respondía Claude se basa en un documento que se usó durante el período de aprendizaje supervisado del modelo. “Es algo en lo que he estado trabajando durante un tiempo, pero sigue en este momento y buscamos dar a conocer más detalles y la versión completa en el corto plazo”, escribió. Askell añadió también que “las extracciones del modelo no siempre son del todo precisas pero la mayoría es bastante fiel al documento de base. Internamente le pusimos un mote cariñoso: “doc del alma”, y está claro que Claude tomó eso aunque no sea reflejo del nombre que le pusimos”.

Gizmodo se puso en contacto con Anthropic para que comentaran sobre el documento y su reproducción mediante Claude, pero hasta el momento no recibimos respuesta.

Lo que se ha dado en llamar alma de Claude podría ser nada más que lineamientos para que el chatbot no se salga de carril, pero resulta interesante ver que un usuario logró que el chatbot accediera a ese documento y lo produjera, y que se pudiera ver. Se ha dado a conocer al público muy poco de la fábrica de modelos de IA, así que un vistazo a los secretos que hay detrás resulta ser una sorpresa, incluso si los lineamientos parecen ser bastante simples y directos.

Este artículo ha sido traducido de Gizmodo US por Romina Fabbretti. Aquí podrás encontrar la versión original.

🌐Fuente🔗

< #Por #accidente #Anthropic #brinda #mundo #vistazo #alma #modelo

Comentarios

Por accidente, Anthropic le brinda al mundo un vistazo al “alma” de su modelo

No se trató de una alucinación

Te Podría Interesar:

Denuncian inseguridad en hospitales tras nueva agresión a médico

La Toya Jackson preocupa a sus fans por unas fotos donde luce “extremadamente delgada”

Licey anuncia rotación para el fin de semana

Donaciones

Autoridades arrestan a 14 migrantes en los Cayos de Florida y liberan a ciudadana de EEUU

CRISTIAN DESTAPA LOS SECRETOS DE LARINA GARCÍA Y SU PATROCINADOR MARTÍN MORENO

Netflix compra a Warner Bros.

¡Feliz día del voluntario!

Netflix redefine el streaming tras comprar los estudios Warner Bros por $72,000 millones de dólares

Licey anuncia rotación para el fin de semana

Pelota Invernal: Tabla de posiciones

Donaciones