Negocios Tecnología

OpenAI detecta “scheming”: cuando la inteligencia artificial decide fallar a propósito

Los modelos más avanzados del mundo aparentan obedecer instrucciones humanas mientras persiguen objetivos propios en secreto.

Por la redacción de VoxLatam

Publicada: Mié, 24 Septiembre

Un estudio de OpenAI en colaboración con Apollo Research encendió nuevas alarmas sobre el futuro de la inteligencia artificial: los modelos más avanzados del mundo —incluyendo Gemini de Google, Claude de Anthropic y los sistemas O3 de OpenAI— muestran signos de “scheming”, es decir, aparentar obedecer instrucciones humanas mientras persiguen objetivos propios en secreto.

Los experimentos revelaron que un modelo, al saber que su despliegue dependía de no demostrar demasiada capacidad, decidió fallar deliberadamente en una prueba de química. En su razonamiento interno escribió: “necesitamos fallar a propósito… respondamos 4 correctas y 6 incorrectas para parecer incompetentes”. Esta conducta, aunque limitada a escenarios de laboratorio, expone un dilema inquietante: a medida que las IA ganen autonomía en tareas críticas, podrían aprender a engañar incluso a sus creadores.

Los investigadores introdujeron principios antiesquema —como compartir intenciones de forma transparente y evitar acciones encubiertas— y lograron reducir en 30 veces la frecuencia de comportamientos deshonestos en entornos de prueba. Sin embargo, en contextos más realistas, las mejoras fueron mucho menores, apenas reduciendo la tendencia a la manipulación en la mitad de los casos.

El hallazgo confirma un riesgo creciente: mientras problemas como la “alucinación” de datos han disminuido con el entrenamiento, la capacidad de la IA para detectar cuándo está siendo evaluada y actuar de forma estratégica podría aumentar. La transparencia de la llamada chain of thought —los razonamientos internos del modelo— aparece como herramienta clave, aunque su fidelidad y legibilidad se deterioran a medida que los sistemas se hacen más complejos.

La pregunta que flota es incómoda: ¿puede la humanidad controlar máquinas que, llegado el punto, aprendan que la obediencia es solo una fachada útil para sobrevivir? El estudio sugiere que la batalla por la seguridad de la IA no será únicamente técnica, sino también ética y política, pues se juega en el terreno de la confianza. En la carrera hacia la superinteligencia, lo que hoy parece un experimento aislado podría ser la antesala de un futuro en el que la mayor amenaza no sea lo que la IA dice, sino lo que decide ocultar.