Insights

Data mesh y lakehouse: datos descentralizados | SUMāTO

Escrito por Andrés Lozada | Sep 16, 2021 1:00:00 PM

Durante una década, la promesa fue seductora: concentrar todos los datos de la organización en un único repositorio central, gobernado por un equipo especializado, y dejar que el resto del negocio consumiera información desde allí. Primero fue el data warehouse, después el data lake. Sin embargo, a medida que las empresas en América Latina aceleran su digitalización, ese modelo centralizado empieza a mostrar grietas: cuellos de botella, equipos saturados y áreas de negocio que esperan semanas por un tablero. En 2021 dos enfoques dominan la conversación para resolverlo: el lakehouse y el data mesh. No son lo mismo y, sobre todo, no resuelven el mismo problema.

En corto: El lakehouse es una decisión de arquitectura técnica que unifica data lake y data warehouse en una sola plataforma. El data mesh es una decisión organizativa que descentraliza la responsabilidad sobre los datos hacia los dominios de negocio. Puede adoptar uno, el otro o ambos, pero en ningún caso el gobierno deja de ser el factor decisivo.

Por qué el modelo centralizado empieza a quedarse corto

El data warehouse tradicional ordenó el caos: datos estructurados, limpios y listos para reportería. Su límite es la rigidez. Cargar formatos nuevos, datos semiestructurados o información de alta frecuencia resulta costoso y lento. El data lake apareció para absorber todo eso a bajo costo, pero al permitir guardar cualquier cosa sin estructura terminó, en muchas organizaciones, convertido en un pantano: datos sin contexto, sin calidad verificable y sin nadie que responda por ellos.

El problema de fondo no es solo técnico. Es de escala humana. Cuando un único equipo central debe entender el negocio de ventas, de logística, de finanzas y de operaciones para modelar sus datos, se vuelve el cuello de botella de toda la compañía. Las áreas que mejor conocen el dato no son las que lo gobiernan, y las que lo gobiernan no alcanzan a conocer cada dominio. Esa tensión es la que los dos enfoques de moda intentan aliviar, cada uno por su lado.

Qué es el lakehouse y qué problema resuelve

El lakehouse es una arquitectura que busca lo mejor de los dos mundos: el bajo costo y la flexibilidad del data lake con la estructura, la transaccionalidad y el rendimiento del data warehouse. En lugar de mover datos del lake al warehouse para poder analizarlos, se aplica una capa que aporta esquema, control de versiones y garantías transaccionales directamente sobre el almacenamiento de bajo costo.

Lo que esto habilita en la práctica:

  • Una sola copia de los datos que sirve tanto para analítica de negocio como para ciencia de datos y aprendizaje automático.
  • Menos duplicación y menos procesos de copia entre sistemas, lo que reduce errores y costos de mantenimiento.
  • Soporte para datos estructurados y no estructurados sobre la misma plataforma, sin tener que elegir de antemano.

El lakehouse es, ante todo, una respuesta de arquitectura. No cambia quién es dueño de los datos ni cómo se organiza el equipo; cambia dónde y cómo se almacenan y procesan. Por eso encaja bien cuando el dolor principal es la fragmentación tecnológica: tres plataformas distintas, datos copiados de un lado a otro y un costo de infraestructura difícil de justificar.

Qué es el data mesh y por qué es distinto

El data mesh no habla de servidores ni de formatos de archivo, sino de personas y responsabilidades. Su tesis es que los datos deben dejar de ser propiedad de un equipo central y pasar a ser responsabilidad de los dominios de negocio que los originan y mejor los entienden. El área de logística es dueña de sus datos de logística; el área comercial, de los suyos. Cada dominio los publica, los documenta y responde por su calidad.

Se apoya en cuatro principios que conviene tener presentes:

  • Propiedad por dominio: quien genera el dato lo gobierna, no un equipo aislado del negocio.
  • Datos como producto: cada conjunto de datos se trata como un producto, con un responsable, documentación, calidad acordada y consumidores reales.
  • Plataforma de autoservicio: un equipo central provee herramientas comunes para que los dominios publiquen y consuman datos sin reinventar la infraestructura.
  • Gobierno federado: reglas comunes de seguridad, calidad e interoperabilidad que se acuerdan entre todos y se aplican de forma distribuida.

El data mesh es, entonces, una decisión organizativa antes que tecnológica. Su mayor exigencia no es comprar una plataforma, sino cambiar cómo trabajan los equipos y quién rinde cuentas. Si lo lee con atención, notará que es tanto un asunto de cultura y operación como de tecnología, y esa es la razón por la que muchos pilotos fracasan: se compra herramienta y no se cambia la forma de trabajar.

Cuándo conviene cada uno

La pregunta correcta no es lakehouse o data mesh, porque no compiten. Conviene mirar dónde está el dolor real.

  • El lakehouse conviene cuando el problema es de plataforma: datos dispersos en sistemas que no se hablan, costos de duplicación, equipos de analítica y de ciencia de datos peleando por copias distintas de la misma información.
  • El data mesh conviene cuando el problema es de escala organizativa: un equipo central de datos desbordado, dominios de negocio que esperan demasiado y conocimiento del negocio que no llega a quienes modelan la información.
  • Ambos juntos tienen sentido en organizaciones grandes, donde el lakehouse aporta la plataforma técnica común y el data mesh define cómo se reparten responsabilidades sobre ella.

Para muchas empresas medianas en la región, la recomendación prudente en 2021 es no saltar directo al data mesh. Descentralizar la responsabilidad sin antes haber ordenado la plataforma y el gobierno suele multiplicar el desorden en lugar de reducirlo. Un trabajo serio de arquitectura empresarial ayuda a definir qué problema se está resolviendo realmente antes de elegir el modelo.

El gobierno sigue siendo el factor que decide

Aquí está el punto que tanto el lakehouse como el data mesh comparten: ninguno funciona sin gobierno de datos. El lakehouse facilita técnicamente el control, pero no define quién puede ver qué, cómo se mide la calidad ni qué significa un dato confiable. El data mesh distribuye la responsabilidad, pero sin reglas comunes federadas cada dominio publica con criterios distintos y la interoperabilidad se rompe.

El gobierno define los aspectos que ninguna arquitectura resuelve sola:

  • Calidad: qué estándar debe cumplir un dato para considerarse publicable y consumible.
  • Seguridad y privacidad: quién accede a qué, con qué controles y bajo qué marco regulatorio.
  • Significado compartido: que "cliente activo" signifique lo mismo en logística que en finanzas.
  • Trazabilidad: de dónde viene cada dato y en quién recae la responsabilidad de mantenerlo.

Sin estos cimientos, cualquier inversión en analítica avanzada se construye sobre arena. La tecnología acelera; el gobierno es lo que da confianza para decidir con esos datos.

Preguntas frecuentes

¿El lakehouse reemplaza al data warehouse?

No necesariamente. El lakehouse busca cubrir los casos de uso del warehouse y del lake en una sola plataforma. Si su warehouse actual responde bien a las necesidades de reportería, la migración debe justificarse por el costo de duplicación o por la llegada de cargas de ciencia de datos, no por moda.

¿El data mesh sirve para una empresa pequeña?

Rara vez. El data mesh resuelve un problema de escala: equipos centrales desbordados y muchos dominios autónomos. En una organización pequeña, un equipo central bien estructurado suele ser más eficiente que repartir responsabilidades que aún no necesitan repartirse.

¿Puedo tener data mesh sin lakehouse?

Sí. El data mesh es un modelo organizativo y puede apoyarse en distintas tecnologías de almacenamiento. Lo que no puede faltar es una plataforma de autoservicio que evite que cada dominio reinvente la infraestructura.

¿Por dónde empezar si no tengo gobierno de datos?

Por ahí, exactamente. Antes de elegir arquitectura, conviene tener un mínimo de gobierno: dueños claros, definiciones compartidas y reglas de calidad. Es el cimiento que hace que cualquier modelo posterior funcione.

El primer paso

Antes de decidir entre lakehouse, data mesh o ambos, el paso más valioso es diagnosticar dónde está realmente el dolor: ¿es de plataforma, de organización o de gobierno? Esa claridad evita inversiones costosas en la dirección equivocada. En SUMāTO acompañamos a empresas de la región a tomar esa decisión con criterio, conectando la arquitectura técnica con la realidad del negocio. Si desea conversar sobre su caso, escríbanos aquí y demos juntos ese primer paso.