Observabilidad: más allá del monitoreo | SUMāTO

Escrito por Andrés Lozada | Aug 20, 2019 1:00:00 PM

A las tres de la madrugada, una alerta avisa que el sistema está caído. El monitoreo cumple su trabajo: dice qué falló. Pero cuando usted abre el panel, encuentra todo en verde menos un servicio intermitente, y la pregunta real queda sin respuesta: ¿por qué falló? En arquitecturas modernas, donde una sola petición de usuario atraviesa decenas de servicios, esa brecha entre saber qué pasó y entender por qué pasó es justamente el terreno que la observabilidad viene a ocupar.

En corto: El monitoreo le dice si sus sistemas funcionan según condiciones que usted definió de antemano; la observabilidad le permite hacer preguntas nuevas sobre comportamientos que nunca anticipó. Se apoya en tres pilares —métricas, logs y trazas— y se vuelve indispensable cuando los sistemas distribuidos hacen imposible razonar sobre el todo mirando una sola parte.

Monitoreo y observabilidad no son sinónimos

Durante años, monitorear significó vigilar un puñado de indicadores conocidos: uso de CPU, memoria, disponibilidad de un servidor. Usted definía umbrales y, cuando se cruzaban, llegaba la alerta. Funcionaba bien con aplicaciones monolíticas, donde el comportamiento del sistema era relativamente predecible y los modos de falla, limitados.

La observabilidad parte de una premisa distinta. En lugar de preguntar solo por lo que usted ya sabe que puede fallar, busca darle la capacidad de interrogar al sistema sobre situaciones que nunca imaginó. La diferencia práctica es esta:

El monitoreo responde preguntas conocidas: ¿está arriba el servicio? ¿cuánta latencia tiene? ¿se llenó el disco?
La observabilidad responde preguntas desconocidas: ¿por qué este 2% de usuarios de una región específica, usando un método de pago concreto, experimenta lentitud solo los lunes por la mañana?

No se trata de reemplazar uno con el otro. El monitoreo sigue siendo el cimiento. La observabilidad es la capa que le permite explorar lo inesperado, y esa capacidad importa cada vez más a medida que los sistemas se vuelven menos predecibles.

Los tres pilares: métricas, logs y trazas

La observabilidad se construye sobre tres tipos de datos de telemetría. Cada uno aporta una mirada diferente, y su valor real aparece cuando se usan juntos.

Métricas

Son valores numéricos agregados en el tiempo: peticiones por segundo, latencia, tasa de errores, consumo de recursos. Son baratas de almacenar y rápidas de consultar, lo que las hace ideales para tableros y alertas. Su límite es que resumen: le dicen que la tasa de error subió, pero no qué petición individual falló ni por qué.

Logs

Son registros de eventos discretos, con marca de tiempo y contexto. Capturan el detalle que las métricas pierden. El reto en sistemas grandes es el volumen y la dispersión: miles de líneas repartidas entre servicios. Por eso conviene migrar hacia logs estructurados —en formato consistente, idealmente con identificadores que permitan correlacionarlos— en lugar de texto libre difícil de consultar.

Trazas

Son el pilar que los sistemas distribuidos hicieron imprescindible. Una traza sigue el recorrido completo de una petición a medida que pasa de un servicio a otro, midiendo cuánto tarda en cada salto. Cuando una operación que cruza ocho microservicios se vuelve lenta, la traza le muestra exactamente en qué tramo se perdió el tiempo, algo que ni las métricas ni los logs aislados pueden revelar con claridad.

La fortaleza está en la correlación. Una métrica le avisa de la anomalía, la traza le señala el servicio culpable y los logs de ese servicio le explican la causa. Los tres pilares cuentan, juntos, una historia que por separado quedaría incompleta.

Por qué los sistemas distribuidos la exigen

En un monolito, casi todo ocurría dentro de un mismo proceso. Si algo se rompía, el rastro estaba en un solo lugar. La adopción de microservicios, contenedores y orquestadores cambió radicalmente ese panorama:

El estado se reparte: una transacción de usuario puede tocar decenas de servicios, cada uno con su propio ciclo de vida y sus propios datos.
La infraestructura es efímera: los contenedores nacen y mueren en minutos, por lo que conectarse a una máquina a revisar qué pasó deja de ser una opción viable.
Las fallas son parciales y combinadas: rara vez se cae todo de golpe; lo habitual es la degradación sutil que emerge de la interacción entre componentes sanos por separado.

En este contexto, vigilar componentes individuales ya no alcanza. Usted necesita entender el comportamiento del sistema como un todo, y eso solo es posible si cada servicio emite suficiente telemetría para reconstruir lo que ocurrió sin tener que reproducir el problema. Esa es la esencia de la observabilidad: hacer que el estado interno del sistema sea inferible desde afuera.

Cómo empezar sin abrumarse

Adoptar observabilidad no requiere transformar todo de una vez. Un camino sensato es incremental:

Instrumente lo que más duele: empiece por los servicios críticos o por los que más incidentes generan, no por todos a la vez.
Estandarice la telemetría: adopte logs estructurados y un formato común de instrumentación, de modo que los datos sean correlacionables entre equipos.
Propague el contexto: asegúrese de que un identificador de petición viaje a través de todos los servicios; sin ese hilo conductor, las trazas no se conectan.
Defina señales que importen: latencia, tráfico, errores y saturación suelen ser un buen punto de partida para decidir qué medir primero.
Cuide el costo: almacenar todo, siempre, se vuelve caro rápido. Tenga una política de muestreo y retención desde el inicio.

Y, sobre todo, recuerde que la observabilidad es tanto cultura como herramienta. De poco sirve instrumentar si nadie usa esos datos para investigar. El objetivo es que, ante un incidente, el equipo pueda formular y responder preguntas con evidencia, en lugar de adivinar.

El papel del equipo que vigila

La tecnología habilita la observabilidad, pero alguien tiene que mirar, interpretar y actuar. En operaciones que funcionan las veinticuatro horas, contar con un centro de operaciones de red (NOC) que combine las tres fuentes de telemetría marca la diferencia entre detectar una degradación temprano o enterarse cuando el cliente ya reclama.

Para muchas organizaciones de la región, construir esa capacidad internamente —con personal en turnos, herramientas y procesos— es costoso y lento. Por eso apoyarse en servicios administrados suele acelerar la madurez operativa: usted obtiene prácticas de observabilidad ya rodadas, sin tener que aprenderlas a tropiezos durante una crisis.

Preguntas frecuentes

¿La observabilidad reemplaza al monitoreo?

No. El monitoreo sigue siendo necesario para vigilar condiciones conocidas y disparar alertas. La observabilidad es una capa más amplia que le permite investigar comportamientos que no anticipó. Conviven y se complementan.

¿Necesito los tres pilares desde el primer día?

No es obligatorio, pero sí recomendable avanzar hacia ellos. Muchos equipos empiezan con métricas y logs, que ya tienen, y luego incorporan trazas cuando la complejidad distribuida lo justifica. El valor crece a medida que los datos se correlacionan.

¿Solo aplica a microservicios?

Es ahí donde se vuelve indispensable, pero los principios benefician a cualquier sistema. Incluso una aplicación más tradicional gana claridad con logs estructurados y buenas métricas. La diferencia es que en sistemas distribuidos deja de ser opcional.

¿Cuál es el mayor obstáculo al adoptarla?

Más que técnico, suele ser cultural y de costos. Instrumentar genera volúmenes grandes de datos que cuestan dinero y disciplina para gestionar, y de nada sirve si el equipo no adopta el hábito de investigar con esa evidencia.

El primer paso

La observabilidad no es un producto que se compra ni un interruptor que se enciende: es una capacidad que se construye servicio a servicio, hábito a hábito. El primer paso suele ser el más simple y el más revelador: elegir un sistema crítico, mirar honestamente qué preguntas podría usted responder hoy si fallara a medianoche, y empezar a cerrar las brechas que encuentre.

En SUMāTO acompañamos a organizaciones de LATAM en ese trayecto, desde la instrumentación inicial hasta la operación continua. Si quiere conversar sobre cómo dar ese primer paso en su contexto, hablemos.

Ver post completo