Almacenamiento de lagos de datos
El lago de datos es un concepto fundamental de la gestión de datos. Pero, ¿qué tipo de almacenamiento necesita para construir un lago de datos y cuáles son los pros y los contras de las instalaciones frente a la nube?
Lago de datos
El manejo de grandes cantidades de datos es un requisito previo de la transformación digital, y la clave de esto son los conceptos de lagos de datos y almacenes de datos, así como centros de datos y mercados de datos.
En este artículo, comenzaremos en la parte superior de esa jerarquía y veremos los lagos de datos . A medida que las organizaciones intentan controlar sus datos y obtener el mayor valor posible de ellos, el lago de datos es un concepto central.
Es un área de administración y análisis de datos que depende del almacenamiento, a veces mucho, y es una actividad que está lista para pasar a la nube , pero que también se puede manejar en las instalaciones.
También veremos el tipo de almacenamiento necesario para un lago de datos, a menudo almacenamiento de objetos , y las ventajas y desventajas de construir internamente o usar la nube .
Lago de datos vs almacén de datos
El lago de datos se concibe como el primer lugar al que fluyen los datos de una organización. Es el repositorio de todos los datos recopilados de las operaciones de la organización, donde residirán en un formato más o menos crudo.
Tal vez habrá algún etiquetado de metadatos para facilitar las búsquedas de elementos de datos, pero se pretende que el acceso a los datos en el lago de datos sea realizado por especialistas como científicos de datos y aquellos que desarrollan puntos de contacto río abajo del lago.
Downstream es apropiado porque el lago de datos se ve, como un lago real, como algo en el que fluyen todas las fuentes de datos, y son potencialmente muchas, variadas y sin procesar.
Desde el lago, los datos irían río abajo hasta el almacén de datos , lo que implica algo más procesado, empaquetado y listo para el consumo.
Si bien el lago de datos contiene múltiples almacenes de datos, en formatos que la gran mayoría de los empleados no pueden acceder o leer fácilmente (no estructurados, semiestructurados y estructurados), el almacén de datos está compuesto por datos estructurados en bases de datos a las que se les brindan aplicaciones y empleados. acceso. Un data mart o hub puede permitir datos que los departamentos consumen aún más fácilmente.
Entonces, un lago de datos contiene grandes cantidades de datos en su forma original. A diferencia de las consultas al almacén de datos o al mercado, para interrogar al lago de datos se requiere un enfoque de lectura de esquema.
Lago de datos: tipos de datos y métodos de acceso
Las fuentes de datos en un lago de datos incluirán todos los datos de una organización o una de sus divisiones.
Puede incluir datos estructurados de bases de datos relacionales, datos semiestructurados como CSV y archivos de registro, así como datos en formatos XML y JSON, datos no estructurados como correos electrónicos, documentos y archivos PDF, así como datos binarios, como imágenes, audio y vídeo
En términos de protocolo de almacenamiento, eso significa que necesitará almacenar datos que se originaron en el almacenamiento de archivos, bloques y objetos .
Pero, de esos, el almacenamiento de objetos es una opción común de protocolo para el propio lago de datos. No olvide que el acceso no será a los datos en sí, sino a los encabezados de metadatos que describen los datos, que se pueden adjuntar a cualquier cosa, desde una base de datos hasta una foto. La consulta detallada de los datos a menudo ocurre en otro lugar, no en el lago de datos.
El almacenamiento de objetos es muy adecuado para almacenar grandes cantidades de datos, como datos no estructurados. Es decir, no puede consultarlo como lo hace con una base de datos en almacenamiento de bloques, pero puede almacenar varios tipos de objetos en una estructura plana grande y averiguar qué hay allí.
El almacenamiento de objetos generalmente no está diseñado para un alto rendimiento , y eso está bien para los casos de uso de lagos de datos donde las consultas son más complejas de construir y procesar que en una base de datos relacional en un almacén de datos. Pero eso está bien porque gran parte de las consultas en la etapa del lago de datos serán para proporcionar almacenes de datos consultables más fácilmente para el almacén de datos descendente.
Lago de datos en las instalaciones frente a la nube
Todos los argumentos habituales en las instalaciones frente a la nube se aplican a las operaciones del lago de datos.
La implementación del lago de datos local debe tener en cuenta los requisitos de espacio y energía, el diseño, la adquisición de hardware y software, la gestión, las habilidades para ejecutarlo y los costos continuos en todas estas áreas.
La subcontratación del lago de datos a la nube tiene la ventaja de descargar los costos de gastos de capital (capex) de la infraestructura a un gasto operativo (opex) de pagos al proveedor de la nube. Eso, sin embargo, podría generar costos inesperados a medida que los volúmenes de datos aumentan y el flujo de datos hacia y desde la nube, por lo que también se le cobrará.
Por lo tanto, se necesita un análisis cuidadoso de los beneficios y los inconvenientes de cada uno. Eso también podría tener en cuenta problemas como el cumplimiento y la conectividad que van más allá del almacenamiento y la arquitectura del lago de datos.
Por supuesto, también puede operar entre las dos ubicaciones, en una forma de nube híbrida al ir a la nube cuando sea necesario.
Productos de lago de datos locales
En términos de almacenamiento, un lago de datos a menudo necesitará una buena cantidad. Si se trata del lago de datos para una organización a escala empresarial, ese definitivamente será el caso.
A mediados de la década pasada, los proveedores de almacenamiento parecieron probar las aguas con productos de lago de datos . EMC, por ejemplo, lanzó su Federation Business Data Lake, lanzado en 2015, que ofrecía almacenamiento de EMC, además de productos de big data de VMware y Pivotal.
Pero eso pareció durar poco. En 2017, Dell EMC tenía como objetivo su plataforma de datos elásticos en implementaciones de lagos de datos.
En otros lugares, Dell EMC también apuntó su gama de productos Isilon de almacenamiento conectado a la red (NAS) de escalamiento horizontal a casos de uso de lagos de datos.
Hitachi Vantara quizás tenga más énfasis en análisis, big data e Internet de las cosas (IoT) desde su cambio de marca. Ofrece capacidad de lago de datos basada en su almacenamiento Hitachi Content Platform junto con la plataforma Lumada IoT y los entornos de integración de datos Pentaho.
Pentaho Data Integration and Analytics está dirigido a big data. Se puede acceder a los informes y análisis de forma remota, y una vez que un usuario obtiene acceso a los datos, se pueden procesar y consumir en cualquier lugar. Pentaho admite almacenes de datos Hadoop, Spark , NoSQL y bases de datos analíticas. La plataforma Lumada IoT utiliza el software de orquestación, visualización y análisis de datos de Pentaho.
IBM también entra en la categoría de proveedores de almacenamiento que hacen ruido sobre los lagos de datos. Ofrece sus arreglos de almacenamiento y consultoría, además de asociarse con Cloudera para ofrecer soluciones de lago de datos. Cloudera es una plataforma de gestión de datos que permite la orquestación y el análisis de grandes volúmenes de datos.
NetApp no juega muy bien con los lagos de datos como tales, pero sí ofrece sus matrices con tecnología Ontap como almacenamiento para big data, Hadoop y Splunk, por ejemplo.
HPE tampoco hace jugadas muy específicas hacia la implementación del lago de datos, excepto para decir que puede construir uno utilizando su cartera de productos de pago por uso de GreenLake.
Es justo decir que puede crear lagos de datos en el hardware de cualquier proveedor, y el kit de productos básicos de caja blanca también es una opción popular. Parece que algunos de los grandes proveedores de almacenamiento pasaron por un breve período de ofrecer productos adaptados a los lagos de datos, incluso hablando de dispositivos de lago de datos, pero estos proyectos son grandes con muchos tentáculos y se prestan más a un enfoque de consultoría y soluciones.
Lagos de datos mejor definidos por los proveedores de la nube
No hay duda de que la idea del lago de datos es un concepto útil. La idea de un repositorio en el que fluyan todos los datos corporativos y donde se seleccionen y luego se haga más accesible es buena.
Y es bastante fácil ver que ciertos tipos de almacenamiento se adaptan mejor a él. Sus necesidades no son inmediatas ni rápidas, por lo que el almacenamiento bastante barato y profundo, como el basado en objetos, es ideal.
Lo que es interesante es que los proveedores de almacenamiento local parecían dar mucha importancia a los grandes datos/lagos de datos y, en algunos casos, incluso promocionaron la idea de un dispositivo de lago de datos.
Pero la realidad de la implementación del lago de datos ha sido algo bastante más grande y con múltiples tentáculos que hizo que no se adaptara bien a productos discretos, por lo que los proveedores de hardware en gran medida coquetearon con él y siguieron adelante, a menos que la consultoría y los servicios proporcionen su ruta hacia él. .
Mientras tanto, sin embargo, los grandes proveedores de la nube, que se basan predominantemente en servicios, han podido unir soluciones para crear lagos de datos con relativa facilidad y, por lo tanto, al menos en las ofertas de AWS y Azure, las soluciones de lagos de datos son prominentes y bien- definido.
Fuente: ComputerWeekly