
Uno de los grandes retos que plantea la tecnología, en lo referente a la gestión de la información, es el de ayudar a las empresas a convertir todos los datos disponibles —internos y externos, estructurados y desestructurados— en una herramienta de valor que ayude en la predicción de intenciones, intereses y comportamientos, y permita establecer una correlación con los procesos centrales de cada negocio.
En el contexto actual, las empresas necesitan contar con un creciente volumen de información para mejorar su conocimiento del mercado, de sus clientes y del contexto que las rodea. Y para conseguir esta visión, evitando una visión poco realista y sesgada del negocio, es necesario ir mucho más allá de los datos que se generan de forma interna y que tienen su origen en la propia organización. El reto es ser capaces de incorporar una gran variedad de fuentes de datos externas heterogéneas, como pueden ser correos electrónicos, blogs, redes sociales, servicios basados en la nube, dispositivos personales, Internet de las cosas (IoT) y datos de geolocalización, entre otras.
A la hora de poner en marcha una solución de big data, una de las grandes dificultades es, por un lado, ser capaces de albergar toda esta información en sistemas cuyo coste de almacenamiento sea relativamente bajo; y por otro lado, poner orden en la anarquía de los datos en tiempo real. Hay que tener en cuenta que la información plana, con distinto formato y procedencia, por sí misma no crea oportunidades de negocio. Es necesario tratarla de forma correcta y tenerla disponible en el momento oportuno.
En esta era digital, las conclusiones solo son útiles si están basadas en información actual. La transformación y el análisis de estos grandes volúmenes de datos debe realizarse en el momento adecuado, para conseguir que el resultado se convierta realmente en un valor decisivo y los datos aporten una ventaja competitiva para el negocio.
En este contexto, sinergias como la existente entre Hadoop (almacenamiento) y SAP HANA (procesamiento en memoria, en tiempo real) pueden ayudar a responder de forma adecuada a esta cuestión.
En este contexto digital, las conclusiones solo son útiles si están basadas en información actual
Distribuido y en tiempo real
Hadoop es un marco de programación de código abierto que soporta el procesamiento de grandes conjuntos de datos en un entorno distribuido, y que está especialmente indicado para almacenar datos estructurados o semiestructurados.
A grandes rasgos, una de sus principales virtudes es que está diseñado para ser altamente escalable y poder almacenar y acceder a inmensas cantidades de información a bajo coste. Y todo ello con un elevado grado de tolerancia a fallos, ya que mantiene copias de los datos en diferentes nodos del sistema de forma robusta.
Pero Hadoop no es una base de datos propiamente dicha, es un eficaz sistema de archivos distribuido. Es decir, cualquier cosa que pueda ser almacenada como un fichero podrá guardarse en sus repositorios, pero uno de sus grandes inconvenientes es que solo permite realizar el procesamiento por lotes, accediendo a los datos de manera secuencial.
El enfoque tradicional del tratamiento de la información, donde las bases de datos eran ocupadas solamente por datos transaccionales, es cosa del pasado. La realidad actual es muy diferente y la información que proporcionan los datos no transaccionales, generados en el extrarradio empresarial, se plantea como un valor diferenciador a la hora de analizar, explorar y predecir en formas nunca imaginadas. Eso sí, siempre que se haga en tiempo real.
Para ello contamos con SAP HANA que, básicamente, es una plataforma de base de datos en memoria, lo cual permite conseguir unos tiempos de respuesta muy inferiores a los que propone una base de datos tradicional. Por tanto, SAP HANA es la clave para obtener ese análisis en tiempo real tan demandado.
Otra de las virtudes más relevantes de SAP HANA es el almacenamiento de tablas en columnas, por lo que resulta especialmente eficiente cuando se trata de trabajar con datos estructurados; gracias a la compresión de la información se consigue un nivel de ocupación más racional del espacio, sin perder rendimiento en las operaciones.
SAP HANA se integra con las principales distribuciones de Hadoop. La unión de ambos mundos permite aplicar el poder del in–memory computing para superar las limitaciones típicamente ligadas al procesamiento por lotes. Uno de los objetivos claros del uso de ambas plataformas es la posibilidad de descubrir nuevos “mundos” de conocimiento mediante la combinación de las fuentes de datos tradicionales —las que suelen residir en bases de datos— con otros que llegan continuamente desde fuera la organización. La posibilidad de combinar estos grandes volúmenes de información externa con los datos
de negocio operativos permite tomar decisiones basadas en
información real, y dentro de un contexto determinado y preciso en el tiempo.
SAP HANA es la clave para obtener ese análisis en tiempo real tan demandado
Integración
En Hadoop, el coste de almacenamiento es relativamente ajustado y está pensado para ser un entorno en el que albergar un elevado volumen de información. Pero no todos esos datos son valiosos o útiles a la hora de tomar decisiones. Por esta razón, solo deberían llevarse a SAP HANA, donde el coste global del dato almacenado es más caro, aquellos que aporten valor al proceso de toma de decisiones.
En la actualidad, la integración entre ambos mundos se puede llevar a cabo de dos formas diferentes, dependiendo de la persistencia de los datos que se vayan a tratar en SAP HANA.
Por un lado, con el uso de SAP Data Services, que es una potente ETL que permite la integración y transformación de datos con orígenes y destinos de distinta índole. Esta herramienta permite cargar en SAP HANA, a partir de reglas de negocio, solo aquellos datos que precisemos en cada momento.
Otra opción es utilizar la nueva funcionalidad Smart Data Access de SAP HANA, mediante la que se puede acceder de forma remota a los datos de Hadoop sin necesidad de ocupar físicamente espacio de base datos, y combinar los datos estructurados (residentes en la base de datos en memoria) con los no estructurados del sistema distribuido de ficheros para crear nuevos modelos y obtener una visión real de nuestro negocio.
Caso de uso
Un caso práctico de lo que puede aportar este tipo de integración es la posibilidad de relacionar la información de las ventas en el lanzamiento de un nuevo producto. Estos datos quedan reflejados en los sistemas transaccionales de las empresas de forma casi inmediata. Pero, además, se puede incluir información acerca de la opinión que tienen los consumidores de dicho producto en redes sociales para así poder establecer un análisis del sentimiento dentro del mercado que pueda mejorar la experiencia de compra de los clientes prácticamente en tiempo real. Esta inmediatez en la respuesta es especialmente importante en el momento del lanzamiento, en el que pequeños detalles, pueden convertir cualquier artículo en tendencia o en el más absoluto de los fracasos.
Parece claro que ambas herramientas, por separado, no pueden resolver el problema del volumen de datos disponible (y el coste asociado), combinado con el procesamiento en tiempo real de la información. La integración y simbiosis entre ambos mundos puede dar una respuesta adecuada a este reto.