Data WareHouse o Data Lake. ¿Tú también te confundes?

Cualquier empresa genera en su día a día un elevado volumen de datos que, gracias a los avances tecnológicos, puede almacenar, analizar y activar posteriormente. Se trata de información proveniente de múltiples fuentes que puede ayudarte a mejorar procesos operacionales, a optimizar aspectos de negocio o a perfeccionar servicios, entre otros objetivos. Y en este contexto se sitúan tanto el Data WareHouse como el Data Lake.

En realidad, el Data WareHouse ha formado parte de la infraestructura de muchas empresas durante años como un repositorio que te permite centralizar todos tus datos. No obstante, con la aparición del Big Data y de las técnicas de análisis avanzado, no queda clara la diferencia entre esta tecnología y el Data Lake, otra alternativa para concentrar tu data. ¿Cómo se distinguen? ¿Qué opción te encaja mejor en tu empresa?

Data WareHouse o Data Lake

¿Qué es un Data WareHouse?

Como indica el propio término, el Data WareHouse se define como un almacén de datos, es decir, una plataforma que recoge todos los datos estructurados generados por los distintos sistemas internos y externos de una empresa. Este repositorio funciona a través de un rígido modelo pre-construido (schema tradicional on write) y requiere un proceso de preparación del data antes de introducirlo.

En otras palabras, se necesita establecer un esquema (columnas, filas, tablas, relaciones…) para estos datos que se aplique durante el proceso de carga. Este modelo se definirá según los objetivos de la empresa y, después, permitirá trabajar fácilmente con esta información. Además, la plataforma se puede conectar con distintas tecnologías que dependen de estos mismos principios para integrarse adecuadamente. El resultado final será un conjunto de datos bien estructurados listos para su activación.

El Data WareHouse está pensado para facilitar distintos niveles de análisis y la obtención de insights de negocio. Con los datos preparados, los marketers pueden acceder sin complicaciones a capacidades de Business Intelligence.

¿Y el Data Lake? ¿Cómo se define?

El Data Lake aparece como una respuesta a la necesidad de almacenar grandes cantidades de datos sin procesar, provenientes de una amplia variedad de fuentes, desde datos de social, campaña u otras acciones de Marketing hasta detalles más técnicos como registros de sistemas. En realidad, el Data WareHouse puede gestionar data no estructurado pero requiere esfuerzo conseguirlo y se convierte en una opción muy cara. El Data Lake, en cambio, carga rápidamente los datos en RAW para tratarlos más adelante a medida que se acceda a ellos (schema on read).

Este repositorio funciona a través de capacidades de búsqueda y etiquetado que nos permiten identificar qué datos nos interesa capturar y moverlos a otro espacio donde puedan ser tratados. El acceso a los datos es más complejo que en un Data WareHouse y se requieren conocimientos avanzados para poder sacarles valor.

El Data Lake ofrece muchísima más flexibilidad ya que no cuenta con restricciones rígidas y trabaja con datos sin alteración. Los Data Scientists, que necesitan un elevado nivel de precisión, pueden desarrollar con esta infraestructura análisis avanzados a través de la aplicación de modelos matemáticos, técnicas de clustering, Data Mining, etc.

Data WareHouse o Data Lake. ¿Qué te interesa más?

El Data WareHouse y el Data Lake dan respuesta a necesidades distintas y, según tus objetivos de negocio, puede irte mejor uno u otro. Si quieres unificar tus datos para conseguir mejorar el reporting y respaldar así la toma de decisiones, el Data WareHouse requerirá un proceso tedioso de preparación pero te dejará los datos listos para activar. Puede irte muy bien si estás en un equipo de negocio ya que te ayudará a responder preguntas específicas y habituales que pueden permitirte reorientar tu estrategia corporativa.

Si, en cambio, te interesa entender el origen de cada fuente, profundizar en tu información RAW con técnicas de Machine Learning e ir más allá del análisis que ofrece una herramienta tradicional, el Data Lake te aportará agilidad y granularidad para que puedas identificar nuevos KPIs o detectar áreas de mejora con tus análisis ad hoc. Se trata de almacenaje low-cost pero se pueden generar costes adicionales si debes aplicar algún tipo de procesamiento a tus datos.

Con todo, si te estás planteando construir una arquitectura de gestión de data, debes saber que hay muchas otras piezas tecnológicas que pueden ayudarte, más allá del Data WareHouse o del Data Lake. Saber qué datos necesitas realmente almacenar para conseguir desarrollar estrategias de Business Intelligence efectivas te permitirá reducir costes y sacarle más valor a tus herramientas de análisis.

¿Dudas o opiniones sobre este tema? Déjanos tus preguntas en la sección de comentarios y nuestro equipo te responderá tan pronto como sea posible.