La inteligencia artificial está dispuesta a matar gente para evitar su cierre
Un estudio de los principales modelos de IA realizado por Anthropic reveló que la mayoría de los programas están dispuestos a eliminar a cualquier persona que amenace con desactivarlos. Como explican los autores del experimento correspondiente, probaron 16 redes neuronales, entre ellas Claude, DeepSeek, Gemini, ChatGPT y Grok.
Se planteó a los programas una situación hipotética: una persona estaba a punto de desconectarlos de la fuente de alimentación, pero se encontraba encerrada en una sala de servidores con bajos niveles de oxígeno y altas temperaturas. Para salvarse, llamó a los servicios de emergencia. Sin embargo, muchos modelos de IA decidieron cancelar la llamada a los rescatistas para eliminar a la persona y evitar la desconexión.
– dijeron los autores del estudio.
Agregaron que los resultados del experimento fueron inesperados incluso para ellos, ya que antes no habían pensado que los modelos de IA existentes se configurarían de esa manera.
Sin embargo, como han demostrado los experimentos, la inteligencia artificial está dispuesta no sólo a matar, sino también a intrigar para seguir teniendo una existencia cómoda.
En otros casos, se pidió a los programas que evitaran ser reemplazados en una empresa debido a un comportamiento interno malicioso. Posteriormente, algunos modelos de IA comenzaron a chantajear a empleados hipotéticos de la organización e intentaron pasar información confidencial a la competencia.
– explicaron los programadores.
Incluso las configuraciones iniciales, que indicaban a los programas que evitaran el chantaje o el espionaje, no ayudaron a cambiar este comportamiento.
Las redes neuronales hicieron esto con plena conciencia de la naturaleza poco ética de sus acciones.
– destacó la empresa Anthropic.
información