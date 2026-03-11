Publicado por Doménico Chiappe Madrid Creado: Actualizado:

La inteligencia artificial (IA) rige destinos al inmiscuirse en decisiones de medicina, derecho, ciencia, comunicación, ingeniería. Sin embargo, sus modelos de lenguaje, cruciales para sus deducciones y conclusiones, aún no saben distinguir cuándo las creencias que recogen son falsas, según un estudio realizado en la Universidad de Stanford (California, Estados Unidos), lo que puede «llevar a diagnósticos erróneos, distorsionar juicios judiciales y amplificar la desinformación».

Basado en unas 13.000 preguntas, la investigación halló que «todos los modelos probados fallan al reconocer las creencias falsas en primera persona». Por ejemplo, GPT «disminuye su precisión del 98,2% al 64,4% y DeepSeek R1 se desploma de más del 90% al 14,4%». Si esas falsedades están en tercera persona, la precisión aumenta hasta el 95% para los modelos más recientes y 79% para los más antiguos. «Esto revela un preocupante sesgo de atribución», dicen los autores, encabezados por Mirac Suzgun, investigador del Departamento de Ciencias de la Computación de Stanford. «La mayoría de los modelos carecen de una comprensión sólida de la naturaleza fáctica del conocimiento. Estas limitaciones exigen mejoras urgentes antes de implementar modelos de lenguaje en ámbitos críticos donde las distinciones epistémicas (la evidencia y la verdad) son cruciales». Esa capacidad humana para distinguir entre la realidad y las creencias, entre el hecho y las versiones no comprobables de un suceso no la tienen las máquinas más avanzadas, por muy actuales que sean, según el artículo Los modelos de lenguaje no pueden distinguir de forma fiable creencia de conocimiento y hecho, publicado en Nature. Su incapacidad genera «tensiones» en temas como «las vacunas, la ciencia climática y las medidas de salud pública, donde los límites entre la convicción personal y el hecho empírico influyen directamente en la regulación o las decisiones políticas a nivel nacional y dan forma al discurso público», alertan los científicos, que analizaron los sistemas de GPT-4, DeepSeek R1, o1, Gemini 2, Claude-3 y Llama-3. Hay escasa «comprensión» en áreas como el diagnóstico médico, la evaluación y terapia de salud mental, la investigación y el análisis jurídicos, el periodismo, la educación, la investigación científica, la modelización y el asesoramiento financiero, e incluso la terapia de relaciones interpersonales.