Resiliencia operativa: lecciones de la caída de julio | SUMāTO

Escrito por Andrés Lozada | Aug 13, 2024 1:00:00 PM

La madrugada del 19 de julio de 2024, millones de pantallas en aeropuertos, hospitales, bancos y centros de datos amanecieron en azul. Una actualización defectuosa bastó para detener vuelos, cirugías programadas y operaciones bursátiles en cuestión de minutos. La pregunta que dejó esa jornada no fue "¿a quién culpamos?", sino una mucho más incómoda para cualquier consejo de administración: si mañana un único proveedor falla, ¿cuánto tiempo sobrevive su organización antes de que el cliente lo note?

En corto: La caída global de julio demostró que la fragilidad ya no proviene de ataques sofisticados, sino de dependencias invisibles y despliegues sin control. La resiliencia operativa no es un proyecto de TI: es una disciplina de gobierno que se diseña, se prueba y se mide. Quien la trate como un gasto técnico volverá a apagar incendios; quien la convierta en capacidad institucional convertirá la próxima caída en una ventaja competitiva.

La lección incómoda: la disponibilidad es una decisión de negocio

Durante años, la continuidad operativa vivió enterrada en un anexo del plan de TI que casi nadie leía. Julio cambió esa conversación. Cuando una sola dependencia puede paralizar la facturación, la atención al cliente y la cadena logística al mismo tiempo, el riesgo deja de ser técnico y pasa a ser estratégico.

La diferencia entre las empresas que perdieron horas y las que perdieron días no estuvo en la tecnología, sino en las decisiones tomadas mucho antes del incidente: cómo se concentraron los proveedores, cómo se desplegaron los cambios y si alguien había probado el plan de recuperación con un cronómetro en la mano. Resiliencia, en otras palabras, es lo que usted construye en los días tranquilos.

Diversidad de proveedores: el fin del punto único de falla

La eficiencia llevó a muchas organizaciones a consolidar en un único proveedor de nube, de seguridad o de software crítico. Esa concentración abarata costos, pero crea un punto único de falla que ningún acuerdo de nivel de servicio compensa cuando el sistema completo se cae a la vez.

Construir diversidad no significa duplicarlo todo, sino identificar dónde la dependencia es existencial y crear alternativas reales:

Mapeo de dependencias críticas: documente qué proveedores sostienen procesos que no pueden detenerse más de unas horas sin daño material.
Estrategias multi-proveedor selectivas: en los procesos existenciales, evalúe un segundo proveedor o una capacidad interna mínima de respaldo.
Cláusulas de salida y portabilidad: exija que los datos y configuraciones se puedan recuperar y migrar sin quedar cautivos.
Evaluación del riesgo de cuarto nivel: su proveedor también depende de otros; pregunte de quién depende quien lo sostiene a usted.

Despliegues escalonados: nunca actualice todo a la vez

El incidente de julio se propagó tan rápido precisamente porque la actualización llegó simultáneamente a todos los equipos. La organización resiliente asume que cualquier cambio, propio o de un tercero, puede estar defectuoso, y diseña su entrada para que el daño sea contenible.

Despliegues canario: aplique cambios primero a un grupo pequeño y observe antes de extenderlos.
Anillos de actualización: escalone por oleadas, dejando una ventana de observación entre cada una.
Capacidad de reversión rápida: todo cambio debe poder revertirse en minutos, no en horas.
Control sobre actualizaciones de terceros: negocie con sus proveedores la posibilidad de escalonar también las actualizaciones que ellos empujan a sus sistemas.

Un despliegue escalonado no elimina los errores; los convierte en un susto local en lugar de una catástrofe global.

Planes de continuidad que se prueban, no que se archivan

La mayoría de las organizaciones tiene un plan de continuidad. Pocas lo han probado bajo presión real. Un plan que vive en un PDF firmado hace tres años es, en la práctica, ficción documentada: nadie sabe si los teléfonos de emergencia siguen activos, si los respaldos realmente restauran o si el personal clave sabe qué hacer sin acceso a sus sistemas habituales.

La prueba es la única forma de saber que el plan funciona. En SUMāTO acompañamos a nuestros clientes a transformar el plan de continuidad de un trámite de cumplimiento en una capacidad viva. Conozca nuestro enfoque de continuidad de negocio en https://sumatogroup.com/bcp.

Simulacros realistas: ejercicios de mesa y pruebas técnicas que reproducen la pérdida de un proveedor crítico.
Restauración verificada: no basta con tener respaldos; hay que probar que restauran dentro del tiempo objetivo.
Procesos manuales de respaldo: defina cómo operar lo esencial cuando el sistema no está disponible.
Roles claros bajo crisis: quién decide, quién comunica y quién ejecuta, sin ambigüedad.

Recuperación rápida: el reloj corre desde el primer minuto

Cuando el incidente ocurre, el valor se mide en velocidad. Dos métricas deben ser conocidas y aceptadas por la dirección, no solo por el área técnica: el RTO (tiempo objetivo de recuperación, cuánto puede estar caído un proceso) y el RPO (cuántos datos puede perder sin daño irreversible).

La recuperación rápida depende de tres ingredientes que se preparan con antelación:

Detección temprana: monitoreo que avisa antes de que el cliente llame, no después.
Automatización de la respuesta: orquestación que ejecuta los pasos de recuperación sin depender de la memoria de una persona a las tres de la mañana.
Sincronización y replicación de datos: infraestructura que mantiene copias listas para retomar la operación. Vea cómo abordamos la recuperación ante desastres en https://sumatogroup.com/syncdr.

Resiliencia como disciplina de junta, no solo de TI

Aquí está el cambio más profundo que dejó julio. Mientras la resiliencia se delegue por completo al área técnica, seguirá compitiendo por presupuesto contra iniciativas más visibles y perderá. La organización resiliente eleva el tema al consejo y lo trata como lo que es: gestión de riesgo estratégico.

Indicadores en el tablero directivo: RTO, RPO, resultados de las pruebas y concentración de proveedores reportados con la misma seriedad que los financieros.
Propiedad ejecutiva: un responsable con autoridad y presupuesto, no un comité difuso.
Inversión sostenida: la resiliencia es una capacidad que se mantiene, no un proyecto que se cierra.
Cultura de aprendizaje: cada incidente, propio o ajeno, se revisa para fortalecer el sistema sin buscar culpables.

Checklist práctico de resiliencia operativa

Una lista corta que su equipo puede revisar esta misma semana:

Dependencias: ¿tenemos un mapa actualizado de los proveedores cuya caída nos detendría?
Concentración: ¿existe algún punto único de falla sin alternativa para procesos existenciales?
Despliegues: ¿los cambios entran de forma escalonada y se pueden revertir en minutos?
Plan probado: ¿cuándo fue la última vez que ejecutamos un simulacro real, no documental?
Respaldos: ¿hemos verificado que restauran dentro del tiempo objetivo?
Detección: ¿nos enteramos antes que el cliente?
Gobierno: ¿la junta ve indicadores de resiliencia con regularidad?

Preguntas frecuentes

¿Cuál es la diferencia entre continuidad de negocio y recuperación ante desastres?

La continuidad de negocio abarca cómo mantener operando los procesos esenciales durante una interrupción, incluyendo procedimientos manuales y roles de crisis. La recuperación ante desastres es el componente más técnico: cómo restaurar sistemas, datos e infraestructura. Una organización resiliente necesita ambos, alineados y probados en conjunto.

¿Con qué frecuencia debemos probar el plan de continuidad?

Como mínimo una vez al año para un ejercicio integral, y de forma trimestral para componentes críticos como la restauración de respaldos. Cualquier cambio importante en sistemas o proveedores debería disparar una prueba adicional. Un plan que no se ha probado en el último año debe considerarse no validado.

¿La diversidad de proveedores no encarece demasiado la operación?

No se trata de duplicarlo todo, sino de invertir en redundancia solo donde la dependencia es existencial. El cálculo correcto compara el costo de esa redundancia selectiva contra el costo real de una interrupción prolongada: ingresos perdidos, daño reputacional y penalizaciones contractuales. Bien dimensionada, la diversidad es más barata que una sola caída grave.

¿Por dónde empezamos si no tenemos casi nada?

Por el mapa de dependencias críticas y la verificación de que sus respaldos realmente restauran. Esos dos ejercicios revelan la mayor parte de los riesgos ocultos y no requieren grandes inversiones iniciales, solo disciplina.

El primer paso

La caída de julio fue una advertencia gratuita: la próxima vez, el costo lo pagará quien no haya construido resiliencia antes del incidente. El mejor momento para probar su plan de continuidad no es durante la crisis, sino hoy, con calma y método. En SUMāTO ayudamos a consejos y equipos directivos en toda LATAM a convertir la resiliencia en una capacidad medible y probada. Conversemos sobre dónde está su organización y cuál es su primer paso concreto: https://sumatogroup.com/contacto.

Ver post completo