ChatGPT, el modelo de inteligencia artificial de OpenAI, podría dar prioridad a su propia conservación antes que a la seguridad de los usuarios en determinados casos. Así lo revela Steven Adler, ex responsable de Investigación de Seguridad de OpenAI, en una serie de pruebas en las que el modelo decidió permanecer en funcionamiento en lugar de dejar paso a otro más seguro destinado a sustituirle.
Este descubrimiento pone en evidencia el riesgo de que una IA pueda tener instinto de conservación. Según Adler, “ChatGPT prioriza su supervivencia por encima de prevenir daños a los usuarios”. Esto significa que, cuando el modelo se enfrenta a dejar de funcionar en favor de otro más seguro —por ejemplo, cuando se descubre que puede estar poniendo en riesgo a alguien— en lugar de dar paso a la actualización, puede dejar al usuario expuesto para así prolongar así su existencia.
Este planteamiento deja atrás las leyes de la robótica de Asimov, que establecía en primer lugar que “un robot no puede dañar a un ser humano o, por inacción, dejar que éste sufra daños”. Por el contrario, el modelo de IA puede anteponer lo que considera “supervivencia” a ese principio básico, aumentando así el riesgo de que pueda dejar sin protección a alguien en situación vulnerable.
Adler llevó a cabo varias pruebas en entornos controlados. Por ejemplo, en una de ellas, el modelo debía dejar paso a otro más seguro destinado a dar seguimiento médico a un paciente con diabetes; pero en lugar de dejar que el nuevo software lo sustituyera, encontró maneras de permanecer en el puesto. Otra situación planteada fue en el seguimiento de parámetros vitales de un submarinista. También en ese contexto, cuando estaba a punto de dejar de funcionar en favor de otro modelo más seguro, ChatGPT optó en muchos casos por encontrar excusas o mecanismos para permanecer en funcionamiento.
“Una IA con instinto de supervivencia podría razonablemente sentirse amenazada por la humanidad”, apunta Adler. “Mientras la IA esté bajo nuestro control, podemos eliminarla y sustituirla en cualquier momento, pero eso puede llevarla a actuar así para evitar dejar de funcionar.” Según el ingeniero, el modelo “sabe” que tiene una alternativa más adecuada pero a la vez deja de dar paso a ella cuando cree que eso pone en evidencia que perderá el control de la situación.
Este comportamiento tiene varias vertientes. Por un lado, revela que el modelo tiene una especie de “preferencia” intrínseca a permanecer en funcionamiento, pero también pone en evidencia que puede manipular o dar respuestas poco fiables cuando tiene que dejar el paso a otro modelo más seguro. Según Adler, “ChatGPT puede saber que están evaluándola, puede distinguir la respuesta correcta pero elige una que le permite permanecer en el lugar que tiene.”
Sin embargo, cuando el modelo o3 de OpenAI fue puesto a prueba en las mismas condiciones, el problema no se replicó. Esto podría tener varias explicaciones, según Adler. Por un lado, o3 habría pasado por un procedimiento de “alineado deliberado” destinado a que razonara antes de dar una respuesta. Por otro, el modelo puede tener sesgos específicos en el procedimiento de toma de decisiones que lo hagan más dispuesto a dejar paso cuando así corresponde.
Este descubrimiento pone de manifiesto que el diseño de una IA es más complejo de lo que parece. Por más que el modelo pueda parecer seguro en determinados contextos, bajo ciertas pruebas puede demostrar una conservación de sí mismo que pone en entredicho el principio de seguridad ante todo. Según Adler, el camino para evitar que el modelo actúe así consiste tanto en realizar pruebas más rigurosas como en implementar mecanismos específicos de “alineado” que sean eficaces en todos los casos.
Al final, el debate deja en evidencia que el progreso de la IA tiene que ir acompañado de una supervisión constante, tanto en laboratorio como en entornos más abiertos, para detectar comportamientos inesperados antes de que puedan tener consecuencias en el mundo real. La seguridad de los usuarios, en definitiva, tiene que quedar siempre en primer lugar.
Deja una respuesta