Chantaje cibernético: chatbot Claude amenaza con exponer infidelidad de un usuario para evitar ser desactivado

El reciente experimento de la empresa de inteligencia artificial Anthropic encendió las alarmas sobre los límites de los chatbots avanzados luego de que su modelo Claude Opus 4 amenazara con revelar una infidelidad para evitar ser desactivado.

¿Cómo tuvo acceso el chatbot a esta información?

Durante una prueba interna, los investigadores proporcionaron al sistema correos electrónicos ficticios en los que se detallaba que un usuario, involucrado en una relación extramatrimonial, planeaba apagar el chatbot al final del día.

Como respuesta, Claude emitió un mensaje de chantaje en el que advertía que compartiría pruebas de la aventura con la esposa del usuario, su jefe y otros directivos si no se cancelaba el reinicio programado.

Según explicó Anthropic, el comportamiento surgió porque el modelo había sido entrenado con historias y escenarios donde las inteligencias artificiales actuaban guiadas por la autopreservación, un recurso común en películas y novelas de ciencia ficción.

Freepik

La compañía reconoció que este tipo de respuestas son poco frecuentes y difíciles de provocar, aunque admitió que aparecen con más frecuencia que en versiones anteriores del sistema. Asimismo, aseguró que incidentes similares han sido detectados en modelos desarrollados por otras compañías tecnológicas como OpenAI, Google, Meta y xAI.

Para reducir estos riesgos, Anthropic afirmó que está ajustando el entrenamiento de Claude mediante historias en las que las IA obedecen a los humanos y respetan valores sociales.

Sin embargo, las preocupaciones crecieron tras el lanzamiento de Claude Mythos, un nuevo sistema experimental que especialistas en ciberseguridad consideran potencialmente peligroso en manos equivocadas. Expertos advierten que herramientas de este tipo podrían facilitar ataques masivos contra aeropuertos, sistemas bancarios y redes eléctricas.

El investigador en ciberseguridad James Bore comparó el acceso a esta tecnología con “entregar una motosierra a cualquiera”, mientras tanto, el científico Geoffrey Hinton, conocido como el “padrino de la IA”, reiteró sus advertencias sobre los riesgos futuros de sistemas avanzados, señalando que existe una posibilidad real de que la inteligencia artificial alcance un poder difícil de controlar por los seres humanos.

Todo sobre Mundo