Una de las grandes preguntas que se hacen las empresas a la hora de aplicar las tecnologías big data es cómo sacar beneficios en relación con un modelo de negocio o situación particular. A partir de nuestra experiencia, vamos a describir cuáles son sus principales aplicaciones desde un punto de vista de negocio, y cuáles deberían ser los primeros pasos de cualquier organización que se disponga a adentrarse en este mundo.

La enorme complejidad de un ecosistema tecnológico en torno a big data, conformado por decenas de productos y frameworks muy diversos, y el abuso del propio concepto, que se ha convertido en the next big thing en el mundo IT, acaba en muchas ocasiones generando confusión e incluso frustración.

Las empresas tienen claro que tienen que ir en esa dirección, pero ¿cómo dar los primeros pasos?

Los mensajes que llegan desde el mercado son muchas veces contradictorios. Nuestra experiencia, ayudando a las empresas a identificar estos primeros quick wins que generen un retorno de inversión claro en el ámbito de big data, ha dado como resultado un criterio muy directo: un proyecto exitoso se debe basar en sacar más valor de nuestros datos, y debe ser práctico, rápido y barato.

Los proyectos de muchos meses de duración, con grandes dotaciones presupuestarias o que se plantean con una orientación de piloto o prueba de concepto teórica sin una aplicación práctica clara, no hacen sino retrasarnos en la carrera de big data, mientras otros nos sacan ventaja.

A continuación vamos a describir algunos ejemplos de la aplicación práctica de este tipo de soluciones.

Las empresas tienen claro cuál es la dirección, pero ¿cómo dar los primeros pasos?

Customer Intelligence

Si tuviéramos que quedarnos con una sola aplicación o una sola perspectiva bajo la que analizar las ventajas que puede aportar big data a la inmensa mayoría de las empresas, sería el concepto de customer intelligence, es decir, el análisis de la huella digital de los clientes orientado a la microsegmentación e hiperpersonalización. El objetivo es conocerles mejor que sus propias familias y ofrecerles un servicio tan personalizado que tengan la impresión de que son nuestro único cliente.

Si alguien piensa que este objetivo puede ser exagerado, basta recordar el ejemplo clásico de una cadena de supermercados americana, que decidió utilizar esta tecnología para generar cupones más personalizados: detectaba patrones de compra y era capaz de sacar conclusiones acerca de su estado civil (casado o soltero), si vive solo o si va a tener un niño. Lógicamente, estos son escenarios para el consumo de productos muy específicos, lo que le permitía generar cupones personalizados.

En una ocasión, un padre de familia se quejó porque su hija estaba recibiendo cupones de productos para el embarazo, y acusó al supermercado de querer incitar a las jóvenes a ser madres. Finalmente se supo que la chica, efectivamente, estaba embarazada. El sistema big data lo había deducido de su comportamiento y perfil de compra, incluso antes que su propia familia.

¿Cómo nos puede ayudar a conseguir esto la tecnología big data?

  • Procesando cantidades masivas de datos: el volumen disponible hoy está varios órdenes de magnitud por encima del que había hace solo unos pocos años. Solo Facebook genera diariamente más datos que toda la información combinada de todas las bibliotecas académicas de EEUU. Imaginemos cuántos datos generan nuestros clientes en las redes sociales, en su navegación por nuestros canales digitales, interactuando con nuestros vendedores en las tiendas o a través de nuestros call centers. Oculta en este océano de datos se encuentra información valiosísima para conocerles mejor y ofrecerles un mejor servicio.
  • Poniendo orden en el caos: entre el 80% y el 90% de todos estos datos no son estructurados (textos, imágenes, vídeos, audio, emails, geoespaciales, 3D, logs, redes sociales…). Los sistemas de bases de datos tradicionales fueron diseñados para manejar volúmenes más pequeños de datos estructurados, con menos actualizaciones y una estructura de datos consistente y predecible. Solo la tecnología big data permite procesar este tipo de información.
  • Extrayendo inteligencia de los datos, para actuar no solo en tiempo real, sino prediciendo el futuro. Los datos sin inteligencia son solo ruido y las soluciones de business intelligence tradicionales solo sirven para analizar el pasado. Big data nos permite actuar en el presente, tomando decisiones en tiempo real, e incluso predecir el futuro aplicando algoritmos de machine learning.

Mientras que para muchas compañías estos conceptos suenan a ciencia ficción, muchas otras ya están llevándolos a la práctica con éxito, logrando un clarísimo valor diferencial frente a sus competidores.

En el futuro, la huella digital que todos dejamos crecerá exponencialmente, porque cada vez tendremos más dispositivos inteligentes a nuestro alrededor que registrarán nuestro comportamiento e incluso nuestro estado emocional: wearables, smartphones, smart TV, smart homes, coches autónomos, smart cities, etc.

Los datos están ahí y cada vez tendremos más a nuestra disposición: el big data nos permite extraer valor de ellos.

FIGURA 1. Quién es quién en el mundo big data. Fuente: Paradigma Digital.

Recolección de los datos desde su origen, por ejemplo en bases de datos tradicionales o en flujos continuos a través de la red:

FLUME: servicio distribuido para recolectar de forma eficiente grandes volúmenes de datos. Sigue una arquitectura flexible y tolerante a fallos basada en agentes. Permite ingestar datos de multitud de orígenes como HTTP, Syslog, NetCat, Kafka o Avro.

SQOOP: herramienta diseñada para transferir de forma eficiente grandes paquetes de datos entre Hadoop HDFS y bases de datos relacionales como MySQL, Oracle o PostgreSQL.

Guardar y gestionar grandes volúmenes de datos: las bases de datos NoSQL.

HADOOP HDFS: sistema distribuido de ficheros diseñado para funcionar sobre hardware commodity. Está inspirado por un paper de Google y es una de las piezas más importantes de Hadoop. Ofrece un alto rendimiento y soporta archivos de gran tamaño. Es tolerante a fallos.

MONGODB: base de datos orientada a documento. Define un API propia para hacer queries y framework para agregaciones complejas. Tiene soporte para replicación, sharding e indexado. Es la más popular de las bases de datos orientadas a documentos.

ELASTIC: servidor de búsqueda de texto completo distribuido. Ofrece un API RESTful para realizar consultas. Los tiempos de búsqueda son muy buenos, en gran medida gracias al sistema de índices que tiene.

Planificación y asignación de los recursos del clúster donde se lleva a cabo el procesamiento.

YARN: uno de los componentes de Hadoop dedicado a la gestión de recursos. Es el responsable de manejar los recursos de computación del clúster y planificar el trabajo de los usuarios y las aplicaciones. También monitoriza el estado de los procesos. Ha sido diseñado con una arquitectura maestro/esclavo.

MESOS: sistema distribuido para la gestión de los recursos de un cluster desarrollado por la Universidad de Berkeley. Ofrece un API única a las aplicaciones para la gestión y planificación a lo largo del datacenter. Está preparado para soportar hasta 10.000 nodos.

El corazón del big data. Motores capaces de realizar el cómputo de manera distribuida, para repartir el trabajo entre varios nodos de computación y efectuar operaciones costosas en poco tiempo.

HADOOP MAPREDUCE: implementación MapReduce Hadoop. Diseñada para trabajar sobre HDFS, procesando los datos en paralelo de acuerdo al paradigma Map/Reduce. Está orientado al procesamiento de trabajos en batch y hace un uso intensivo del disco lo que penaliza su rendimiento. Fue el primer framework importante de procesamiento distribuido que surgió. Hoy en día está quedando obsoleto si lo comparamos con otro motores de procesamiento más modernos.

SPARK: framework para procesamiento distribuido posterior a Hadoop, fue diseñado y escrito desde cero pensando en sustituir el componente MapReduce, pero integrándose con el resto del framework. No sólo soporta el paradigma map/reduce sino un conjunto mucho mayor de transformaciones que pueden ser ejecutadas en paralelo. Trabaja intensivamente en memoria lo que lo hace hasta 100 veces más rápido que Hadoop MapReduce. Además soporta procesamiento en streaming a través del uso de micro-batching.

STORM: motor de procesamiento distribuido orientado a eventos en tiempo real. El proyecto fue impulsado por Twitter. Su diseño está orientado a procesar de forma muy rápida los eventos recibidos, llegando a procesar más de 1 millón de registros por segundo y nodo.

FLINK: motor de procesamiento de reciente aparición. Orientado al procesamiento en streaming y a obtener un alto rendimiento a una baja latencia. Ofrece un API rica de transformaciones y cabe destacar su sistema de gestión de ventanas de eventos que permite asegurar la recepción de eventos en el el orden correcto.

Intercambio de datos entre los diferentes componentes de manera eficiente. Aquí se ubican todas las colas de mensajes.

KAFKA: sistema de mensajería distribuido de alto rendimiento, está diseñado para manejar cientos de MB de mensajes por segundo, generados y consumidos por miles de clientes y ordenados en “topics”. Es escalable gracias a que puede ejecutar a lo largo de un cluster de nodos.

RABBIT MQ: sistema de colas de mensajes muy extendido, soporta múltiples opciones de configuración, clustering y alta disponibilidad. Además incluye un sistema de plugins por el cual se puede extender su funcionalidad. Es posible obtener soporte comercial a través de Pivotal, la compañía que lo soporta.

Bibliotecas orientadas a simplificar el acceso a los datos. Se basan en los motores de procesamiento para formular las consultas de manera eficiente.

HIVE: nació inicialmente como un subproyecto del proyecto Hadoop, nos ofrece un conjunto de herramientas para leer, escribir y manejar datos sobre Hadoop con una sintaxis similar a SQL. Incluye un driver JDBC.

PIG: es un proyecto complementario al proyecto Hadoop. Nos ofrece un lenguaje de scripting de alto nivel para manejar datos que internamente se transforman en trabajos map/reduce sobre Hadoop.

SPARK SQL: es el módulo incluido en Spark para trabajar con datos estructurados usando una sintaxis de estilo SQL, pero aprovechando las ventajas de ejecutar sobre el core de Spark. También nos ofrece un conector JDBC.

Algoritmos para clasificar, predecir o perfilar. Se basan en motores de procesamiento para ejecutar cálculos complejos muy rápido.

SPARL MLLIB: es un framework que incluye algoritmos de machine learning implementados sobre Spark y aprovechando de esta manera las ventajas del cálculo distribuido y el trabajo intensivo en memoria que nos ofrece Spark. Incluye algoritmos de clasificación, regresión y clustering entre otros.

FLINKML: es la biblioteca de algoritmos de machine learning sobre el core de Flink. Es una biblioteca muy nueva, que de momento incluye muy pocos algoritmos.

Los datos están ahí y cada vez habrá más: big data nos permite extraer valor de ellos

Otras aplicaciones sectoriales

Otras aplicaciones claras del big data son más visibles en sectores particulares. Por ejemplo, el mismo concepto de customer intelligence, trasladado a sensores y en general al mundo del Internet of Things, nos lleva al concepto de industrial intelligence. Cada vez se aplica más en los sectores de industria y energía: describe la capacidad de extraer inteligencia de procesos y aparatos industriales, y actuar en consecuencia.

Como media, un avión 787 produce medio terabyte de datos en un solo vuelo. Millones de sensores repartidos por las ciudades nos dan métricas heterogéneas que están a nuestra disposición para procesar e interpretar: coches, beacons, contadores eléctricos, cámaras automáticas, entre un largo etcétera, conforman un ecosistema de sensores conectados que permiten disponer de una información exhaustiva de todo lo que está pasando en cualquier proceso o dispositivo industrial.

El big data permite mejorar esos procesos y aparatos de forma inteligente, mejor y mucho más rápidamente de lo que lo haría cualquier ser humano. Se habla, de hecho, del concepto de industria 4.0, como un nuevo modelo industrial en el que el mundo operacional y el decisional confluyen, y las decisiones las toman sistemas big data en tiempo real. La intervención humana queda relegada a la supervisión y mantenimiento del proceso.

En el mundo del gobierno, y de la ciberinteligencia en general, la aplicación de tecnologías de big data para detectar en tiempo real amenazas, ataques e intentos de fraude habilita un nuevo nivel de defensa hasta ahora desconocido.

En sanidad, el big data permite tratamientos personalizados basados en los datos biomédicos y genéticos registrados. En 2025 se estima que podrán ser secuenciados entre cien millones y dos billones de genomas, lo que ocupará 40 exabytes.

En telecomunicación, ya es viable un análisis masivo e inteligente de la posición de los clientes que tienen un móvil operativo, para saber las zonas más concurridas en diferentes horarios y aplicar ese conocimiento a la habilitación y optimización de todo tipo de negocios paralelos a los propios servicios móviles.

Y ya hemos hablado de la capacidad en el sector de retail para personalizar los programas de fidelización, hasta el punto de predecir el comportamiento y gustos de los clientes. Para ello, abanderados de la tecnología big data, Walmart recoge cada hora 2,5 petabytes de información del comportamiento de sus clientes, tanto en canales digitales como en tiendas, y los combina con información sobre el tiempo, eventos lúdicos y deportivos, etc. El objetivo es extraer patrones complejos, y hasta ahora ocultos, en cuanto al comportamiento de los clientes.

¿Hasta qué punto invaden estas tecnologías nuestra intimidad y privacidad? Está claro que la protección legal y la responsabilidad de las empresas representarán un papel clave a la hora de encauzar por el buen camino el progreso tecnológico. Pero pararlo es imposible.

El big data está aquí y estamos ante un nuevo mundo: lo que se conoce como la tercera generación IT, tan disruptiva y fascinante como el propio nacimiento de Internet hace 25 años.

Data Discovery

Aun teniendo claro cuál debe ser el primer paso de nuestra organización dentro de todas estas posibilidades, no siempre es fácil llevarlo a la práctica. No hay que olvidar que los datos son la gasolina de cualquier sistema big data. En ocasiones nos encontramos con ideas que, aun siendo buenas desde el punto de vista de negocio y estando bien aterrizadas, son irrealizables en un plazo y coste razonables. La razón muchas veces se debe a que no se dispone de medios para adquirir los datos necesarios para llevarlas a cabo.

Como primer paso, nuestra recomendación es un diagnóstico rápido de los datos de los que dispone, o puede disponer fácilmente, la organización. A partir de esa visión, hay que identificar un quick win realizable a corto plazo, que aporte beneficios claros en poco tiempo y con una inversión razonable. Y crecer a partir de ahí será mucho más fácil, enriqueciendo las vías de adquisición de datos y mejorando la inteligencia sobre ellos. De este modo, nuestra organización se irá orientado poco a poco, y de forma ordenada, hacia el paradigma data centric: el apoyo de todos los procesos de negocio en inteligencia big data.

Para este diagnóstico es fundamental apoyarse en proveedores con experiencia real, ya que el éxito de este primer quick win es fundamental para solidificar los cimientos de la carrera hacia el mundo big data.