De Data Silos a Data Fabric
Como ya lo hemos visto en blogs anteriores la información es poder, o mejor dicho contar con la información adecuada en el tiempo correcto, este es el verdadero poder. Por lo tanto, la tecnología ha dado un gran salto tanto en materia del almacenamiento, como en la consulta de datos. Y a su vez en esta evolución ha tenido que enfrentar desafíos como la integración de diversas fuentes, tipos, estructuras o inclusive plataformas de información. Los problemas han ido creciendo y la inclusión de arquitecturas híbridas, nube o multi-nube, a pesar de sus grandes ventajas, han complicado aún más el uso efectivo de la información.
A medida que la ciencia de datos va evolucionando, los problemas de consulta e interconectividad se vuelven más evidentes. Y la evolución de muchas compañías se habría detenido de no ser porque surge una nueva arquitectura de datos que se conoce como Data Fabric (Fábrica de datos).
Para entender este nuevo concepto, primero tenemos que revisar cómo han ido evolucionando los datos y las plataformas que se han ido integrado en el tiempo.

Silos de Datos
El primer paso de la evolución fueron los silos de datos, que son “bancos” de información que se mantienen aislados de los demás sistemas de la empresa. Almacenan información en varios formatos de archivo, desde e-mails hasta datos que todavía no fueron procesados. Asimismo, sirven para proteger la información generada por la empresa, evitando fugas y el uso indebido de datos.
Sin embargo, esta primera etapa pronto se convirtió en un dolor de cabeza, cuando se intentó consolidar la información que se encontraba creciendo de forma exponencial. Esto dio entrada a lo que e conoce como Data Warehouses o almacenes de datos.
Data Warehouse
Un Data Warehouse es un repositorio unificado para todos los datos generados por los diversos sistemas de una empresa. Normalmente, un Data Warehouse se aloja en un servidor corporativo y ahora cada vez con mayor frecuencia en la nube. Permite a los ejecutivos de negocios organizar, comprender y utilizar sus datos para la toma de decisiones estratégicas. Generalmente se hace uso de un ETL, un conector enfocado en Extraer, transformar y cargar la información en un nuevo repositorio. A pesar de ser una solución muy usada y efectiva en muchas compañías, a medida que los datos van creciendo, y que inclusive surgen términos como el “Big Data” nombrado así por la cantidad de información que almacena, estos procesos se vuelven lentos y poco manejables, convirtiéndose en algunos casos hasta un cuello de botella para los procesos clave de las compañías. Lo que dio cabida a nuevas tecnologías de consulta como la virtualización de la información.
Data Virtualization
La virtualización de datos permite a la aplicación extraer y manipular información sin requerir detalles técnicos, como el formato de la fuente, o dónde se encuentra físicamente localizada. A diferencia de un ETL, los datos permanecen en su lugar, y el acceso es en tiempo real, lo que reduce el riesgo de errores al no tener que estar moviendo la información. Se utiliza comúnmente en inteligencia de negocios, arquitecturas basadas en servicios para la nube, búsquedas y administración de datos. Con esta tecnología se dio acceso de forma más dinámica a la información para consulta, pero ahora la necesidad de estructurar y documentar esos datos abrió el paso a lo que se conoce como Data Lake.
Data Lake
Un data lake es almacén que contienen una gran cantidad de datos que se mantienen allí hasta que sea necesario. A diferencia de un Data Warehouse que almacena datos en ficheros o carpetas, un Data Lake utiliza una arquitectura plana para almacenar los datos.
A cada elemento se le asigna un identificador único y se etiqueta con un conjunto de etiquetas de metadatos extendidas, con lo que podemos identificar los datos que están relacionados. Una vez obtenidos podemos analizar ese conjunto de datos más pequeño para ayudar a obtener una respuesta más rápida. Al tener toda la información clasificada y ordenada, permite la evolución a la democratización de la información, convirtiendo y agrupando todos los conceptos antes mencionados, en un nuevo concepto de arquitectura “self-service” a lo que se le llamó Data Fabric.
Data Fabric
La idea fundamental de Data Fabric es balancear la descentralización con la globalización de la información, convirtiéndose en una capa de conectividad entre los diferentes puntos virtuales de datos. A través de tecnología como la automatización, agrandamiento de información, gobierno de datos, así como la activación de metadatos. La arquitectura de Data Fabric logra una orquestación dinámica a través de un ambiente distribuido. La idea principal es que Data Fabric convierta a la información de la compañía en un activo, asegurándose de que se puedan combinar, acceder y gobernar diferentes tipos de datos a lo largo y ancho de la compañía de la forma más eficaz y efectiva, con un ambiente “self-service” para la consulta y explotación.
Puntos importantes del Data Fabric
- Reduce el número de copias de datos, generando conexiones virtuales de punto a punto y simplificando los patrones de acceso sobre cualquier tipo de datos
- Provee políticas globales automáticas para la protección y calidad de datos
- Utiliza agrandamiento del gobierno de datos, y metadatos para proveer una orquestación dinámica, inteligente y automatizada
- Provee enriquecimiento automático para contextualizar la información con semántica y bases de conocimiento
- Utiliza bloques pre-integrados y pre-programados para facilitar el despliegue y explotación de la información.
Sabemos que, al ser una tecnología enfocada al usuario final y al uso de la información de forma autosuficiente, su retorno de inversión puede ser muy rentable. Un estudio llamado Forrester New Technology: Projected Total Economic ImpactTM Study hecho por IBM, en febrero 2020 reveló que implementar esta tecnología pudiera representar un beneficio en la economía global de 5.8 Millones de USD, y un ROI de 459%. Datos muy impactantes que apuntan a que la implementación de Data Fabric pronto será algo prioritario para las empresas.
Nosotros en Inphini estamos integrando Data Fabric dentro de nuestro portafolio de solicones, a través de la implementación de aplicaciones de IBM Cloud Pak for Data, ya que por medio de una arquitectura basada en aplicaciones (Kubernetes) gracias OpenShift de Red Hat, se integran una serie de herramientas escalables en el tiempo, de acuerdo con las necesidades y maduración de cada empresa. Estamos listos para apoyarte en este tema.
El crecimiento exponencial de los datos ha propiciado una evolución tecnológica enorme en los últimos años, por lo que las empresas tarde o temprano estarán inmersas en la gran Fábrica de Datos. La información ciertamente es poder, siempre y cuando tengas la forma de explotar y analizarla en el tiempo correcto, de lo contrario simplemente se vuelve una carga o a veces hasta un gasto innecesario, es como tener un Mercedes Benz en un garage, sin duda es algo muy potente pero que no sirve de nada estacionado. Gracias por leer este blog y espero seguir dándote información de utilidad en el futuro.