shadow

¿Que es un Data Lake?

 

 

Por Lic. Carlos E. Osorio Director General Websinergia
Por Lic. Carlos E. Osorio
Director General Websinergia

Data Lake es un término que ha sido acreditado a James Dixon, quien es fundador y CTO de Pentaho, él nos da su visión con la siguiente explicación:

“Si se piensa en un Datawarehouse (Almacén de Datos) como un almacén de agua embotellada – limpia y empaquetada y estructurada para su fácil consumo – el lago de datos o Data Lake es por el contrario una gran masa de agua en un estado más natural. El contenido del lago se va llenando mediante el flujo de datos desde una o varias fuentes y varios usuarios del lago pueden llegar a examinar, explorar o tomar muestras de estos. “

Un lago de datos es un repositorio de almacenamiento que contiene una gran cantidad de datos en bruto en su formato original, incluyendo datos estructurados, semi-estructurados y no estructurados. La estructura y los requisitos de datos no se han definido hasta que estos se necesitan.

Por lo anterior hay que considerar que un Data Lake no es un Datawarehouse, como el término está de moda muchas veces los empresarios quieren estar a la vanguardia y pretenden usar esta tecnología cuando no es lo que requieren y comprometen el actuar de sus áreas de TI, dentro de las principales diferencias están:

Datos. Un Datawarehouse sólo almacena datos que han sido modelados / estructurados, mientras que un Data Lake no hace acepción de datos. Almacena todo – estructurada, semiestructurada y no estructurada.

Procesamiento. Antes de que podamos cargar datos en un Datawarehouse, primero tenemos que darle un poco de forma y estructura, es decir, tenemos que modelarlo. Eso se llama esquema en escritura. Con un Data Lake que contiene los datos en bruto, tal y como son, posteriormente cuando se requiera usar los datos, que es cuando se le da forma y estructura. Eso se llama esquema de lectura. Dos enfoques muy diferentes.

Almacenamiento. Una de las características principales de las tecnologías de datos grandes como Hadoop es que el costo de almacenamiento de datos es relativamente baja en comparación con el Datawarehouse. Hay dos razones principales para esto: En primer lugar, Hadoop es un software de código abierto, por lo que el soporte de licencias y la comunidad es gratuito. Y en segundo lugar, Hadoop está diseñado para ser instalado en hardware de bajo costo.

Agilidad. Un Datawarehouse es un repositorio altamente estructurado, por definición. No es técnicamente difícil cambiar la estructura, pero puede ser que implique modificar todos o gran parte de los procesos de negocios que están vinculados a la misma. Un Data Lake, por el contrario, carece de la estructura de un Datawarehouse, lo que ofrece a los desarrolladores y científicos de datos la posibilidad de configurar y reconfigurar sus modelos, consultas y aplicaciones sobre la marcha con facilidad.

Seguridad. Las tecnologías de Datawarehouse han existido durante décadas, mientras que las tecnologías de Big Data (p.e. las bases de datos de un Data Lake) son relativamente nuevas. Por lo tanto, la capacidad de asegurar los datos en un Datawarehouse es mucho más maduro que la seguridad de datos en un Data Lake. Cabe señalar, sin embargo, que hay un importante esfuerzo que se está teniendo en la seguridad en la industria de Big Data. No es una cuestión de si, sino cuándo.

Usuarios. Durante mucho tiempo, el tema central de la reunión ha sido ¡BI y análisis para todo el mundo! Hemos construido el Datawarehouse he invitado a “todos” para entrar, pero ¿han entrado? En promedio, el 20-25 % de ellos lo hicieron. ¿Es la misma petición por el Data Lake? ¿Vamos a construir el Data Lake e invitar a todos a venir? No si eres inteligente, un Data Lake, en este momento de su madurez, es el más adecuado para los científicos de datos y no para los profesionales de negocios.

En conclusión un Data Lake no es un Datawarehouse. Ambos están optimizados para diferentes propósitos, y el objetivo es utilizar cada uno para lo que fueron diseñados y no malgastar recursos en algo que no tendrá uso en la organización.

Deja un comentario

Tu dirección de correo electrónico no será publicada.

Digíta la respuesta para comentar *