Durante una década, los equipos de datos hemos vivido con una arquitectura partida en dos: por un lado el data lake, barato y flexible, donde aterriza todo —logs, archivos, eventos, semiestructurado—; por el otro, el data warehouse, ordenado y rápido para los tableros de negocio. Funciona, pero a costa de duplicar datos, mantener dos pilas tecnológicas y mover información de un lado a otro sin parar. En SUMāTO vemos cada vez más empresas en LATAM preguntándose si de verdad necesitan los dos. La respuesta que está madurando en 2022 tiene nombre: lakehouse.
En corto: El lakehouse es una arquitectura que pone capacidades de data warehouse —transacciones, esquemas, rendimiento de consulta— directamente sobre el almacenamiento barato y abierto de un data lake. La idea es tener un solo lugar donde convivan BI y machine learning, sin copiar los datos a un sistema aparte. No es magia: es la combinación de formatos de tabla abiertos y motores que los entienden.
La arquitectura de dos niveles se volvió el estándar de facto: ingieres todo al lake en formatos como Parquet y luego cargas un subconjunto curado al warehouse para que el negocio consulte. Sobre el papel es elegante. En la práctica genera fricciones que se acumulan.
Un lakehouse es una arquitectura de datos que añade una capa transaccional y de gestión de metadatos encima del almacenamiento de objetos del lake (por ejemplo, almacenamiento en la nube con archivos Parquet). Esa capa convierte un montón de archivos sueltos en algo que se comporta como tablas de base de datos: con esquema, con control de versiones y con transacciones confiables.
Dicho de otro modo: en lugar de mover los datos al warehouse para obtener sus garantías, usted lleva las garantías del warehouse a donde ya están los datos. Un solo repositorio, abierto, sirve tanto al tablero de la dirección como al modelo de propensión de compra.
El valor del lakehouse no es un solo truco, sino la suma de tres cosas que históricamente vivían separadas.
A esto se suman funciones que antes eran exclusivas del warehouse: aplicación de esquema (schema enforcement) y su evolución controlada, y el llamado time travel, que permite consultar el estado de una tabla en un momento anterior —oro puro para auditoría y para reproducir un experimento de ML.
Cuando la arquitectura se simplifica, los beneficios bajan a tierra rápido.
Para una organización que está construyendo capacidades de analítica y quiere que esos mismos datos sostengan iniciativas de IA, evitar la bifurcación entre BI y ML es, quizá, el argumento más fuerte.
El lakehouse es una arquitectura emergente, no una bala de plata. Vale la pena considerarlo cuando:
Conviene ir con cautela si su carga es modesta y un warehouse bien dimensionado ya la resuelve sin fricción, o si su equipo aún no tiene madurez operando almacenamiento de objetos y motores distribuidos. La migración no es trivial: implica replantear ingestión, gobernanza y herramientas de consumo. Lo sensato suele ser empezar por un dominio acotado y crecer desde ahí.
Esa es la promesa de fondo, pero en 2022 la mayoría de las organizaciones convive con ambos durante la transición. El lakehouse aspira a cubrir los casos de uso del warehouse sin un sistema separado; llegar ahí es un camino, no un interruptor.
No. Un lakehouse suele construirse sobre el almacenamiento que usted ya tiene, añadiendo una capa de tabla abierta encima de sus archivos. Es más evolución que reemplazo.
Consultar el lake directamente no le da transacciones confiables, control de esquema ni rendimiento consistente. La capa transaccional del lakehouse es justo lo que aporta esas garantías de warehouse sobre los archivos.
Ese es el punto. Las mismas tablas alimentan consultas SQL para tableros y, sin copiar nada, el entrenamiento de modelos. Esa convergencia es la razón principal para mirarlo.
Antes de elegir un formato de tabla o un motor, el primer paso es honesto y aburrido: mapear dónde duele hoy su arquitectura de datos. ¿Cuántas veces se copian los mismos datos? ¿Qué tan frescos llegan a sus tableros? ¿BI y ML trabajan sobre la misma verdad? Con ese diagnóstico, decidir si el lakehouse aporta valor real deja de ser una moda y pasa a ser una decisión de ingeniería.
En SUMāTO acompañamos a organizaciones de LATAM a hacer ese diagnóstico y a diseñar la ruta —sin saltos al vacío. Si quiere conversar sobre su caso, escríbanos en sumatogroup.com/contacto.