En la era digital actual, el inteligencia artificial (IA) ha ido ganando terreno en diversos campos, entre ellos medicamento. Los chatbotsLos programas informáticos que simulan conversaciones humanas se están convirtiendo en herramientas populares para responder preguntas. médico.
Sin embargo, estudios recientes han señalado una tendencia preocupante: Estos chatbots tienen más probabilidades de cometer errores al ser consultados en idiomas como el españolcomparado con el inglés. Una discrepancia que plantea graves riesgos para los usuarios y subraya la necesidad de un desarrollo más inclusivo y completo de la IA médica, según los expertos.
Conocidos coloquialmente como ‘Doctor Chatbot’, estos programas han ido sustituyendo progresivamente ‘Doctor Google’ como la principal fuente de información médica para muchos usuarios. Los chatbots tienen la ventaja de ofrecer respuestas conversacionales y simplificadas a preguntas complejas, lo que puede generar mayor confianza entre los usuarios. Sin embargo, esta confianza puede resultar engañosa si las respuestas no son precisas ni fiables.
Ahora, un estudio reciente ha arrojado luz sobre las deficiencias de dos chatbots populares: GPT-3.5 de OpenAI y MedAlpaca. Los autores de este trabajo, pertenecientes a la Instituto de Tecnología de Georgia (EE.UU.)Hizo más de 2000 preguntas típicas sobre enfermedades, procedimientos médicos y medicamentos en inglés. Más tarde, tradujeron estas preguntas al Español, chino mandarín e hindi para evaluar la precisión de las respuestas en estos idiomas.
Los resultados fueron alarmantes. Según el estudio, GPT-3.5 produjo respuestas inaceptables en el 23% de las preguntas en chinoél 20% en español y el 45 % en nomientras, en Inglésel porcentaje de errores fue 10%. Por su parte, MedAlpaca mostró un desempeño aún peor, con más del 67% de sus respuestas en chino, hindi y español considerado irrelevante o contradictorio.
“Encontramos una disparidad pronunciada en las respuestas de LLM en estos idiomas, lo que indica la necesidad de mejorar las capacidades multilingües”, explican los autores del estudio. Y estos datos reflejan una conclusión contundente: una brecha significativa en la efectividad de estos chatbots cuando se utiliza en idiomas distintos del inglés.
Cabe agregar que hay varios factores que contribuyen a estas disparidades. Primero, la mayoría de los modelos de lenguajes grandes (LLM), como GPT-3.5, son entrenado principalmente en datos en inglés.
Esto se debe a la abundancia de textos en inglés disponibles en línea, lo que proporciona una base de datos más sólida para entrenar estos modelos. Por el contrario, los datos en otros idiomas son más limitados, lo que afecta negativamente la capacidad de los chatbots para comprender y responder con precisión en esos idiomas.
Pero, además, estos modelos suelen tener dificultades para comprender el contexto de las preguntas en idiomas distintos del inglés. Por ejemplo, MedAlpaca presentó errores como repetición de palabras o respuestas en inglés a preguntas formuladas en otros idiomas. Según los investigadores, estos fracasos pueden deberse a una formación insuficiente y a la complejidad inherente a la traducción precisa de términos médicos.
Otro factor importante, según los responsables del estudio, es la similitud entre inglés y español en términos de estructura y sintaxis. Los investigadores descubrieron que las respuestas que ofrecía la máquina en inglés y español eran algo más consistentes que las que daba en chino e hindi, posiblemente debido a similitudes lingüísticas. Sin embargo, esto no fue suficiente para evitar errores mayores en español.
Las imprecisiones en las respuestas de los chatbots médicos pueden tener graves consecuencias, como advierten estos científicos. Y es que, en el ámbito médico, un malentendido o una información incorrecta puede llevar a decisiones de salud erróneas, poniendo en riesgo la vida de los usuarios. Por lo tanto, entienden que es crucial abordar estas deficiencias y trabajar para lograr soluciones efectivas.
Una estrategia sugerida por los expertos es aumentar el número de textos médicos traducidos del inglés a otros idiomas. Sin embargo, esto presenta algunos desafíos debido a la dificultad de traducir términos científicos con precisión. Otro enfoque es entrenar modelos específicos para cada idioma, aprovechando la capacidad de los LLM para traducir entre idiomas.
Además, consideran fundamental incluir a más expertos médicos de diferentes partes del mundo, especialmente del sur global, en el proceso de formación y evaluación de estos modelos. Por tanto, la diversidad de evaluadores podría ayudar a reducir la disparidad lingüística y mejorar la precisión de las respuestas en varios idiomas.
Con todo, la inteligencia artificial tiene el potencial de revolucionar el acceso a la información médica, pero para que esto sea una realidad segura y eficaz, es necesario un enfoque más inclusivo y completo, advierten los investigadores.
Por ello, indican, los desarrolladores de IA deben priorizar la creación de modelos que puedan servir a la mayoría de la población mundialque no habla inglés. En su opinión, es imperativo reconocer y abordar las limitaciones actuales de la IA para responder con precisión en idiomas distintos del inglés, ya que de ello dependen la vida y la salud de millones de personas.
“Nuestros hallazgos subrayan la urgente necesidad de Reforzar las capacidades multilingües de estos modelos. y proporcionar un ecosistema de información equitativo y accesible para todos”, concluyen.
Referencias: