{"id":165,"date":"2016-05-30T11:33:17","date_gmt":"2016-05-30T16:33:17","guid":{"rendered":"http:\/\/websinergia.com.mx\/blog\/?p=165"},"modified":"2016-10-26T21:22:27","modified_gmt":"2016-10-27T02:22:27","slug":"que-es-un-data-lake","status":"publish","type":"post","link":"https:\/\/websinergia.com.mx\/blog\/2016\/05\/30\/que-es-un-data-lake\/","title":{"rendered":"\u00bfQue es un Data Lake?"},"content":{"rendered":"<p style=\"text-align: justify;\">\n<p>&nbsp;<\/p>\n<p>&nbsp;<\/p>\n<figure id=\"attachment_22\" aria-labelledby=\"figcaption_attachment_22\" class=\"wp-caption alignleft\" style=\"width: 180px\"><img loading=\"lazy\" class=\"size-full wp-image-22\" src=\"http:\/\/websinergia.com.mx\/blog\/wp-content\/uploads\/2016\/04\/CHARLIE6.jpg\" alt=\"Por Lic. Carlos E. Osorio Director General Websinergia\" width=\"180\" height=\"191\" \/><figcaption id=\"figcaption_attachment_22\" class=\"wp-caption-text\">Por Lic. Carlos E. Osorio<br \/>Director General Websinergia<\/figcaption><\/figure>\n<p style=\"text-align: justify;\"><strong>Data Lake<\/strong> es un t\u00e9rmino que ha sido acreditado a James Dixon, quien es fundador y CTO de Pentaho, \u00e9l nos da su visi\u00f3n con la siguiente explicaci\u00f3n:<\/p>\n<p style=\"text-align: justify;\">&#8220;Si se piensa en un <strong>Datawarehouse (Almac\u00e9n de Datos)<\/strong> como un almac\u00e9n de agua embotellada &#8211; limpia y empaquetada y estructurada para su f\u00e1cil consumo &#8211; el lago de datos o Data Lake es por el contrario una gran masa de agua en un estado m\u00e1s natural. El contenido del lago se va llenando mediante el flujo de datos desde una o varias fuentes y varios usuarios del lago pueden llegar a examinar, explorar o tomar muestras de estos. &#8220;<\/p>\n<p style=\"text-align: justify;\">Un lago de datos es un repositorio de almacenamiento que contiene una gran cantidad de datos en bruto en su formato original, incluyendo datos estructurados, semi-estructurados y no estructurados. La estructura y los requisitos de datos no se han definido hasta que estos se necesitan.<\/p>\n<p style=\"text-align: justify;\">Por lo anterior hay que considerar que un Data Lake no es un Datawarehouse, como el t\u00e9rmino est\u00e1 de moda muchas veces los empresarios quieren estar a la vanguardia y pretenden usar esta tecnolog\u00eda cuando no es lo que requieren y comprometen el actuar de sus \u00e1reas de TI, dentro de las principales diferencias est\u00e1n:<\/p>\n<p style=\"text-align: justify;\"><strong>Datos<\/strong>. Un Datawarehouse s\u00f3lo almacena datos que han sido modelados \/ estructurados, mientras que un Data Lake no hace acepci\u00f3n de datos. Almacena todo &#8211; estructurada, semiestructurada y no estructurada.<\/p>\n<p style=\"text-align: justify;\"><strong>Procesamiento<\/strong>. Antes de que podamos cargar datos en un Datawarehouse, primero tenemos que darle un poco de forma y estructura, es decir, tenemos que modelarlo. Eso se llama esquema en escritura. Con un Data Lake que contiene los datos en bruto, tal y como son, posteriormente cuando se requiera usar los datos, que es cuando se le da forma y estructura. Eso se llama esquema de lectura. Dos enfoques muy diferentes.<\/p>\n<p style=\"text-align: justify;\"><strong>Almacenamiento<\/strong>. Una de las caracter\u00edsticas principales de las tecnolog\u00edas de datos grandes como Hadoop es que el costo de almacenamiento de datos es relativamente baja en comparaci\u00f3n con el Datawarehouse. Hay dos razones principales para esto: En primer lugar, Hadoop es un software de c\u00f3digo abierto, por lo que el soporte de licencias y la comunidad es gratuito. Y en segundo lugar, Hadoop est\u00e1 dise\u00f1ado para ser instalado en hardware de bajo costo.<\/p>\n<p style=\"text-align: justify;\"><strong>Agilidad<\/strong>. Un Datawarehouse es un repositorio altamente estructurado, por definici\u00f3n. No es t\u00e9cnicamente dif\u00edcil cambiar la estructura, pero puede ser que implique modificar todos o gran parte de los procesos de negocios que est\u00e1n vinculados a la misma. Un Data Lake, por el contrario, carece de la estructura de un Datawarehouse, lo que ofrece a los desarrolladores y cient\u00edficos de datos la posibilidad de configurar y reconfigurar sus modelos, consultas y aplicaciones sobre la marcha con facilidad.<\/p>\n<p style=\"text-align: justify;\"><strong>Seguridad<\/strong>. Las tecnolog\u00edas de Datawarehouse han existido durante d\u00e9cadas, mientras que las tecnolog\u00edas de Big Data (p.e. las bases de datos de un Data Lake) son relativamente nuevas. Por lo tanto, la capacidad de asegurar los datos en un Datawarehouse es mucho m\u00e1s maduro que la seguridad de datos en un Data Lake. Cabe se\u00f1alar, sin embargo, que hay un importante esfuerzo que se est\u00e1 teniendo en la seguridad en la industria de Big Data. No es una cuesti\u00f3n de si, sino cu\u00e1ndo.<\/p>\n<p style=\"text-align: justify;\"><strong>Usuarios<\/strong>. Durante mucho tiempo, el tema central de la reuni\u00f3n ha sido \u00a1BI y an\u00e1lisis para todo el mundo! Hemos construido el Datawarehouse he invitado a &#8220;todos&#8221; para entrar, pero \u00bfhan entrado? En promedio, el 20-25 % de ellos lo hicieron. \u00bfEs la misma petici\u00f3n por el Data Lake? \u00bfVamos a construir el Data Lake e invitar a todos a venir? No si eres inteligente, un Data Lake, en este momento de su madurez, es el m\u00e1s adecuado para los cient\u00edficos de datos y no para los profesionales de negocios.<\/p>\n<p style=\"text-align: justify;\">En conclusi\u00f3n un Data Lake no es un Datawarehouse. Ambos est\u00e1n optimizados para diferentes prop\u00f3sitos, y el objetivo es utilizar cada uno para lo que fueron dise\u00f1ados y no malgastar recursos en algo que no tendr\u00e1 uso en la organizaci\u00f3n.<\/p>\n<p style=\"text-align: justify;\">\n","protected":false},"excerpt":{"rendered":"<p>&nbsp; &nbsp; Data Lake es un t\u00e9rmino que ha sido acreditado a James Dixon, quien es fundador y CTO de Pentaho, \u00e9l nos da su visi\u00f3n con la siguiente explicaci\u00f3n: &#8220;Si se piensa en un Datawarehouse (Almac\u00e9n de Datos) como un almac\u00e9n de agua embotellada &#8211; limpia y empaquetada y estructurada para su f\u00e1cil consumo [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":[],"categories":[10,2],"tags":[],"_links":{"self":[{"href":"https:\/\/websinergia.com.mx\/blog\/wp-json\/wp\/v2\/posts\/165"}],"collection":[{"href":"https:\/\/websinergia.com.mx\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/websinergia.com.mx\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/websinergia.com.mx\/blog\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/websinergia.com.mx\/blog\/wp-json\/wp\/v2\/comments?post=165"}],"version-history":[{"count":6,"href":"https:\/\/websinergia.com.mx\/blog\/wp-json\/wp\/v2\/posts\/165\/revisions"}],"predecessor-version":[{"id":968,"href":"https:\/\/websinergia.com.mx\/blog\/wp-json\/wp\/v2\/posts\/165\/revisions\/968"}],"wp:attachment":[{"href":"https:\/\/websinergia.com.mx\/blog\/wp-json\/wp\/v2\/media?parent=165"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/websinergia.com.mx\/blog\/wp-json\/wp\/v2\/categories?post=165"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/websinergia.com.mx\/blog\/wp-json\/wp\/v2\/tags?post=165"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}