
Uno de los retos que nos encontramos en empresas que están trabajando con grandes volúmenes de información, apoyados por arquitecturas big data soportadas en Hadoop, es la necesidad de hacer minería de esos grandes conjuntos de datos interaccionando con información procedente de fuentes transaccionales.
El concepto de big data y el de IoT (Internet de las Cosas) llevan revolucionando el mundo de la gestión de la información desde hace ya varios años. No en vano, cada vez es más evidente que tanto los fabricantes de hardware como los de software dedican tiempo y dinero a desarrollar sus productos con el objetivo de posicionarse en este ámbito.
Cada vez es más evidente para la empresa que contar con una mayor capacidad de almacenamiento y velocidad en el tratamiento de la información abre todo un mundo de posibilidades hasta ahora no valoradas en el campo del análisis predictivo de la información, que pueden dar lugar a nuevos puntos de vista sobre sus modelos de negocio o de procesos.
Los clientes empiezan a interesarse por este campo y a dedicar partidas a invertir en pruebas de concepto e ideas para aplicar y aprovechar esta nueva tecnología en sus procesos de negocio. El objetivo es permitirles focalizar con mayor precisión cómo actuar para que el esfuerzo maximice los ingresos o el ahorro en costes.
En este proceso, pasar los proyectos de enterprise datawarehouse tradicional a proyectos de enterprise data hub, se plantean multitud de posibilidades, que van desde la elección de los casos de uso más apropiados para abordar tales proyectos hasta la de las plataformas que nos permitan establecer sinergias entre ambos mundos.
Lógicamente, no debe entenderse esto como una sustitución de los modelos actualmente implantados en el data management tradicional por proyectos de análisis de big data basado en data hub tipo Hadoop: el objetivo es que los dos mundos se complementen aprovechando las ventajas que ambos ofrecen en su terreno.
Los datos más recurrentes, más calientes, deben ser accesibles de manera más ágil
Plataforma in memory
SAP lleva varios años trabajando en este terreno con su plataforma in-memory SAP HANA, que evoluciona dos mundos que tradicionalmente han estado separados, uniéndolos y optimizando su consulta mediante el trabajo en memoria. Hablamos del mundo transaccional, bajo arquitectura OLTP —donde reside la información estructurada del negocio (ECC)— y el mundo analítico, basado en tecnología OLAP, donde, mediante procesos de carga y transformación de datos (ETL) se desarrollaban los proyectos de gestión analítica y cuadro de mando tradicionales.
De esta forma se obtiene un auténtico real-time, ya que se accede en tiempo de ejecución del informe del entorno analítico al mismo origen del dato del entorno transaccional. Hasta ahora esto no era posible y obligaba a aproximarse al real-time, reduciendo los tiempos de latencia en el momento en que el dato era introducido en el sistema transaccional y esa información estaba disponible para su análisis en el analítico.
Esta arquitectura ofrece ventajas en el entorno del análisis de datos estructurados de una empresa, permitiendo responder en tiempo real a preguntas sobre el estado del negocio, pero puede no ser la mejor opción cuando se desea explotar también la ingente información de nuevos actores como web logs, text, email, sensores, etc. En definitiva, el Internet de las Cosas.
En este campo, plataformas como Haadoop ofrecen ventajas de ahorro en coste y almacenaje frente a plataformas datawarehouse tradicionales, donde recoger información no estructurada de multitud de fuentes vía ETL.
Esto se consigue mediante bases de datos HDFS, que dispersan la ingente cantidad de información en diversos clústeres de datos. En este tipo de arquitecturas, a diferencia de los procesos ETL tradicionales, cada consulta se optimiza mediante su lanzamiento en paralelo contra los distintos nodos, que responden a la solicitud, y cuyos resultados son luego tratados y consolidados. Ambos aspectos, combinados, maximizan la capacidad de almacenamiento y el tratamiento de volúmenes ingentes de información. La plataforma Apache Spark, usando tecnología MAPReduce, optimiza este procedimiento en memoria.
La unión de ambos mundos
El éxito en este proceso de adaptación se encuentra en la forma en que aprovechemos el potencial de ambos mundos. En la posibilidad de unir el mundo transaccional de los datos estructurados de negocio y compararlo con la información desestructurada que nos rodea. Y todo ello sin que debamos hacer concesiones en simplicidad y homogeneidad de nuestras arquitecturas de gestión de información actuales.
Un escenario posible para evaluar lo que este escenario nos propone sería mantener la información estructurada de nuestra empresa en un datawarehouse tradicional e instalar sandboxs de información desestructurada en entorno Hadoop donde experimentar nuevas fuentes de información. De esta forma, podríamos llegar a conclusiones basadas no solo en el conocimiento del proceso del negocio, sino también en lo que otros interlocutores externos proponen.
Frente a este nuevo reto, y entendiendo que ambos mundo deben complementarse y no solaparse o sustituirse, SAP ha desarrollado una serie de puentes. A través de ellos es posible acceder a la información externa de forma nativa, tal y como se hace en Apache Spark, mediante consultas a bases de datos HDFS como Hadoop a través de tecnología MAPReduce. Pero, además, ofrece las ventajas de acceso a los datos que ya incorporan la información estructurada in-memory para facilitar su combinación. De este escenario surge la idea de SAP HANA Vora.
La adopción de SAP HANA no olvida la necesidad de integración con Hadoop
SAP HANA Vora
La idea es poder gestionar lo que se llama la “temperatura” del dato, mediante la que se mide la frecuencia de consulta que se realiza sobre determinada información. Los datos más recurrentes, los más calientes, son los que deben ser accesibles de manera más ágil.
Bajo este modelo híbrido entre SAP HANA y Hadoop, y con la capacidad de acceso a la información de ambos mundos (estructurado y no estructurado) que ofrece SAP Vora, se puede acceder a la información almacenada en la base de datos de Hadoop y decidir cuál residirá en SAP HANA y cuál no, en función de su utilidad en cada momento. Y todo bajo una arquitectura homogénea y escalable, donde el gestor de la información puede acceder a orígenes de datos transaccionales y externos, al mismo nivel y de forma transparente, sin necesidad saber si provienen de tablas estructuradas o fuentes externas.
SAP HANA Vora permite, de esta forma, combinar tablas in memory transaccionales con tablas virtuales, donde poder crear modelo analíticos que obtengan resultados cruzados de ambos mundos.
En resumen, el acceso a la información y su crecimiento pueden llegar a volúmenes ingentes. Sin embargo, si se utilizan las herramientas y soluciones adecuadas, estos datos se pueden convertir en un poderoso aliado para las empresas, las cuales obtendrán resultados que impactarán directamente en las cifras de manera positiva con nuevos casos de negocio.
La adopción de SAP HANA, bajo un contexto estratégico que habilite la transformación digital de la compañía, no olvida la necesidad de integración con Hadoop.