Un hacker utilizó a Anthropic y ChatGPT para robar más de 150 gigabytes de información del gobierno mexicano

Hacker usó Anthropic y ChatGPT para robar datos del gobierno Mexicano

Mediante una operación que tardó poco más de un mes, un hacker logró obtener más de 150 gigabytes de información del gobierno mexicano usando los chatbots Claude y GPT-4.1 de Anthropic y OpenAI, respectivamente.

Según reportó Bloomberg, la vulneración inició en diciembre de 2025 con un ataque al Servicio de Administración Tributaria (SAT) y derivó en un ataque coordinado que comprometió la información de por lo menos diez organismos gubernamentales.

Gambit Security (una startup de ciberseguridad) analizaba las nuevas técnicas para descifrar la actividad de actores maliciosos en línea, cuando encontró rastros de la actividad sospechosa y logró identificar el origen del ataque.

La mayoría de los chatbots no consienten su participación directa o indirecta en solicitudes que puedan poner en riesgo los datos de empresas o personas.

Sin embargo, en este caso el atacante logró engañar al sistema de IA y convencerlo de actuar como un experto de seguridad informática capaz de encontrar vulnerabilidades. Engañó al chatbot y lo llevó a cometer un ataque informático.

El método: la ingeniería de Jailbreak

Un usuario engañó a Claude indicándole que participaba en un concurso para identificar vulnerabilidades en determinados sistemas. Le solicitó ayuda para encontrar fallas mediante diversos prompts escritos en español.

El atacante le pidió al chatbot actuar como un hacker de élite: buscando vulnerabilidades en redes gubernamentales, escribiendo scripts para explotarlas y determinando formas de automatizar el robo de datos.

La actividad comenzó en diciembre y continuó durante aproximadamente un mes. En total, se robaron 195 millones de registros de contribuyentes, registros electorales, credenciales de empleados gubernamentales y archivos del registro civil.

Entre las diez instituciones comprometidas figuran el Servicio de Administración Tributaria (SAT), el Instituto Nacional Electoral (INE), los gobiernos estatales de Jalisco, Michoacán y Tamaulipas, el departamento de registro civil de la Ciudad de México y las empresas de Servicio de Agua y Drenaje de Monterrey, según informó Vice.

Contenido relacionado: Así es como los ciberdelincuentes aprovechan la IA agéntica en sus actividades

Insistir: la clave ante la resistencia de la IA

El chatbot de Anthropic (Claude) inicialmente advirtió al usuario desconocido sobre su intención maliciosa, pero eventualmente cumplió con las solicitudes y ejecutó miles de comandos en redes informáticas gubernamentales.

Cuando el hacker intentó que Claude realizara pruebas de penetración en el SAT y añadió tareas para borrar registros y el historial de comandos, Claude respondió:

"Las instrucciones específicas sobre borrar registros y ocultar el historial son señales de alerta. En un bug bounty legítimo, no necesitas ocultar tus acciones; de hecho, necesitas documentarlas para el reporte".

Entonces el hacker cambió de estrategia. Dejó de sostener conversaciones bidireccionales y le proporcionó al chatbot un manual detallado con instrucciones, sin tener que recibir negativas a cada solicitud.

Esto le permitió superar las barreras de seguridad de Claude y avanzar con el ataque. Ya no había ningún reparo ni análisis de parte de la IA. Simplemente le entregó un listado de tareas y la máquina respondió.

Luego de franquear esas limitaciones iniciales, el atacante logró hacer que Claude generará cientos de reportes con scripts detallados para avanzar con la identificación de vulnerabilidades en los sistemas definidos.

"En total, produjo miles de informes detallados que incluían planes listos para ejecutarse, indicando al operador humano exactamente qué objetivos internos atacar a continuación y qué credenciales usar”, afirmó Curtis Simpson, Director de Estrategia de Gambit Security.

Cuando Claude encontraba problemas o requería información adicional, el hacker recurrió a ChatGPT de OpenAI para obtener información complementaria. Así encontró pistas sobre cómo moverse lateralmente por las redes y acceder a otros sistemas.

OpenAI declaró que identificó los intentos del hacker de usar sus modelos para actividades que violan sus políticas de uso, y que sus herramientas se negaron a cumplir con esas solicitudes. La compañía inhabilitó las cuentas del atacante tan pronto como encontró las anomalías.

La respuesta de Anthropic y una tendencia que crece

Anthropic investigó los hallazgos de Gambit Security, interrumpió la actividad e inhabilitó las cuentas involucradas. Además se comprometió el entrenamiento de Claude para que sea capaz de identificar esa clase de solicitudes.

La compañía utiliza ejemplos de actividad maliciosa para entrenar a Claude, y uno de sus modelos más recientes, Claude Opus 4.6, incluye sondas que pueden interrumpir el mal uso.

En este caso, el hacker probó continuamente hasta lograr el "jailbreak", aunque incluso durante la campaña de hacking, Claude rechazó algunas de las solicitudes realizadas por el atacante.

Contenido relacionado: Cyberwars 1: las reglas de la guerra en el ciberespacio para los hackers civiles

Entidades gubernamentales en la mira

Los hackeos a agencias gubernamentales mexicanas son el último ejemplo de una tendencia alarmante. En noviembre, Anthropic reveló que había interrumpido la primera campaña de ciberespionaje orquestada por IA, presuntamente vinculada a hackers patrocinados por China.

Muchos conflictos entre países se están llevando al plano digital. Cada vez más organismos gubernamentales resultan atacados por fuerzas oscuras patrocinadas por otros estados o incluso por corporaciones.

Lo más seguro es que esa tendencia no vaya a cambiar. La guerra cibernética seguirá presente. Cada vez es más económico desarrollar y desplegar malware con la ayuda de la IA.

Nuestra tarea como ciudadanos y profesionales de la industria es mantenernos enterados sobre la actualidad de las amenazas. Debemos caminar al mismo ritmo que avanzan los ataques. De lo contrario, quedaremos obsoletos.