El plan de Google DeepMind si sus agentes de IA se descontrolan

Domingo 21 de Junio de 2026

21/06/2026 - TECNOLOGIA
El plan de Google DeepMind si sus agentes de IA se descontrolan

La compañía desarrolló un sistema que detecta y bloquea comportamientos sospechosos de la inteligencia artificial en tiempo real.

Google DeepMind ha presentado una hoja de ruta para abordar los riesgos que plantea el uso de agentes de inteligencia artificial dentro de su propia organización de investigación. El documento, publicado para que otros laboratorios de IA puedan aprender de su enfoque, propone un sistema de seguridad multicapa que actúa incluso si los mecanismos tradicionales de alineación fallan.

El plan de Google DeepMind representa un cambio respecto al foco habitual del sector en el “problema de la alineación”, es decir, asegurar que las acciones de una IA correspondan a las intenciones, valores y ética de los humanos que la supervisan. Aunque la compañía reconoce que la alineación sigue siendo esencial, admite que este objetivo podría no alcanzarse nunca por completo. Por ello, propone tratar a los agentes de inteligencia artificial como posibles “insiders rebeldes” y adoptar estrategias inspiradas en la ciberseguridad tradicional.

Rohin Shah, líder del equipo de Seguridad y Alineación de AGI en Google DeepMind, explicó a Fortune: “Si la primera línea de defensa —la alineación— falla, ¿cómo podemos mitigar el daño igualmente?”. El marco de trabajo toma elementos de la prevención de amenazas internas, habitual en seguridad informática, porque las IA pueden actuar mucho más rápido y a mayor escala que cualquier empleado humano.

Monitorización y control dinámico en tiempo real

El plan de seguridad de Google DeepMind establece la necesidad de sistemas que limiten las herramientas y los datos a los que puede acceder un agente de IA, así como mecanismos que monitoreen su comportamiento para detectar patrones anómalos en tiempo real. John “Four” Flynn, vicepresidente de seguridad y privacidad de la compañía, advirtió que los métodos actuales de control basados en roles humanos no se ajustan bien al entorno automatizado de la IA, ya que un mismo agente puede desempeñar múltiples tareas asociadas a diferentes roles.

Flynn señaló que el futuro requiere un sistema de permisos mucho más dinámico, capaz de modificarse en función de la tarea específica y el flujo de trabajo en cada momento. Un agente de IA podría tener acceso a ciertos datos para una tarea concreta y perderlo minutos después al cambiar de contexto, siempre bajo la vigilancia de un sistema sofisticado que identifique desviaciones y corte el acceso cuando detecte posibles riesgos.

Prototipos y herramientas en desarrollo

Según un blog publicado por Google DeepMind, la empresa ya opera con un prototipo interno que monitoriza de manera asíncrona el comportamiento de agentes de codificación y eleva cualquier hallazgo sospechoso para su revisión humana. Esta herramienta ha analizado cerca de un millón de tareas y ha sido crucial para el monitoreo en tiempo real del agente Gemini Spark, permitiendo intervenir rápidamente ante incidentes como la eliminación no intencionada de datos.

La mayoría de los eventos detectados, según la compañía, no se deben a intenciones maliciosas, sino a errores de interpretación o excesivo celo por cumplir los objetivos del usuario.

Una estrategia múltiple contra agentes rebeldes

El marco TRAIT&R de DeepMind identifica amenazas como pérdida de control, sabotaje de trabajo y daño directo por parte de agentes de IA. (Google)

El sistema de seguridad de Google DeepMind incluye unas quince medidas para reducir el riesgo de agentes de IA fuera de control. Entre ellas figuran desde simples registros de actividad de red —que pueden auditarse en tiempo real o posteriormente— hasta la vigilancia de los “trazos de razonamiento” de los agentes a través de modelos menos complejos, capaces de revisar el razonamiento textual que produce la IA al decidir sus acciones.

PINAMAR24 EN FACEBOOK

P24

Monitorización y control dinámico en tiempo real

Prototipos y herramientas en desarrollo

Una estrategia múltiple contra agentes rebeldes

Taxonomía y amenazas identificadas