Uno de los principales elementos de las nuevas aplicaciones de analítica y big data, y también una de las preocupaciones más relevantes de los CIO en la actualidad, es optimizar las infraestructuras de almacenamiento para respaldar mejor los nuevos enfoques en busca de la digitalización. Una transformación que está moviendo a las organizaciones hacia modelos de negocio mucho más centrados en los datos.
La pregunta clave es la siguiente: ¿qué se puede hacer, desde el punto de vista de las infraestructuras de almacenamiento, para respaldar a las denominadas data-driven companies, para hacer que lleguen a esos modelos de negocio basados en los datos?
Cada día más, las empresas innovadoras están implementando aplicaciones de nueva generación para aprovechar sus datos y tomar mejores decisiones con nuevos modelos de análisis basados en la inteligencia artificial (IA) y el machine learning (ML). Se trata de aplicaciones críticas que ofrecen una altísima disponibilidad —a menudo en tiempo real (AlwaysOn)— y que necesitan más computación y más datos que nunca.
Las infraestructuras tradicionales de almacenamiento están ante un reto histórico, y no solo por tener que mantener los sistemas alimentados con datos y cumplir con los requerimientos en cuanto a tiempo de respuesta: a todo eso hay que sumarle los desafíos relativos a la computación, propios de las cargas de trabajo impulsadas por IA y ML
Ubicación del dato
En el pasado, se requerían sistemas separados para cumplir con rentabilidad con todos los requisitos de capacidad y rendimiento masivo. Esto llevaba a poner en marcha estrategias de ubicación de datos que utilizaban, por un lado, un tier de frontend más pequeño y de mayor rendimiento, y, por otro, un sistema de backend mucho más grande, cuya estructura de costes estaba optimizada para una capacidad masiva, pero no para el rendimiento. Las tecnologías de ubicación de datos capturaban los datos activos utilizados en el tier de rendimiento, al tiempo que se mantenían los datos menos activos en un segundo nivel más escalable y con un coste de propiedad mucho más bajo.
Las nuevas cargas de trabajo de big data necesitan un acceso rápido a un mayor volumen de datos
Sin embargo, si bien este modelo ha sido válido mientras los procesos de analítica empresarial eran más bien operaciones tipo batch, las nuevas cargas de trabajo de big data necesitan un acceso rápido a un mayor volumen de datos. Además, esos datos se deben mantener en los tiers de rendimiento. Como es obvio, mover datos entre tiers alarga el tiempo necesario para los procesos.
Resiliencia, interconexión y latencia
Dicho todo esto, el gran reto está en cómo diseñar una infraestructura de almacenamiento que sea capaz de cumplir con todos estos requisitos. Si yo fuera el arquitecto de datos de una gran organización, en primer lugar buscaría una estructura extremadamente resiliente que pudiera aportar recuperación transparente tanto para un solo sistema como a lo largo de múltiples configuraciones, incluyendo, por supuesto, recuperación ante desastres; también desearía una solución que admita un completo ecosistema de interconexiones de alto rendimiento, tales como FC o NVMe over Fabrics, para no desperdiciar las capacidades de rendimiento por culpa de las altas latencias; y, por último, exigiría de forma irrenunciable unos niveles de latencia consistentes, por debajo del milisegundo, tanto para las cargas de trabajo habituales como para las de business intelligence impulsadas por IA y ML. Todo ello junto con una escalabilidad rápida y sencilla a escala de petabyte.
Si yo fuera el arquitecto de datos, en primer lugar buscaría una estructura extremadamente resiliente
En la práctica, la mayoría de las soluciones disponibles en la actualidad no cumplen con estas premisas. De este modo, las empresas se ven obligadas a operar con varios sistemas por separado para cubrir sus requisitos de rendimiento. Para cumplir con estas necesidades se requieren innovaciones clave: gestión de bloqueo, capacidad para acceder rápidamente a cualquier dato mediante estructuras trie y algoritmos de ubicación que se adaptan dinámicamente a los cambios en las cargas de trabajo para mantenerse acelerados. Todo ello junto con un enfoque multi-tier y dentro de una única plataforma.
El reto del acceso
Asimismo, el objetivo de cumplir con estos requisitos de escalado masivo debe llevar no solo a consideraciones de capacidad, sino a un modelo de acceso directo a todo el almacenamiento desde cualquiera de los controladores del sistema (que tendrá que ser redundante). Todo ello sin tener que acceder a sistemas de almacenamiento externos. El soporte de este modelo multi–tier en la nube mejorará la propuesta de valor, pero la plataforma debe ser capaz de soportar de manera rentable varios petabytes de datos, a fin de mantener accesible todo lo más importante.
Si la infraestructura de almacenamiento no cumple con estas características, es posible que lo más sensato sea permanecer en un modelo más tradicional, gestionando y manteniendo plataformas separadas. Pero es fácil entender que estos nuevos modelos de consolidación de cargas de trabajo y business intelligence de nueva generación no solo proporcionan esa capacidad, sino que también ofrecen un beneficio económico.
Las nuevas arquitecturas de almacenamiento abren la oportunidad de replantear los enfoques tradicionales de análisis
En definitiva, las nuevas arquitecturas de almacenamiento abren la oportunidad de replantear los enfoques tradicionales de análisis, especialmente si los tiers de “rendimiento” y “archivado” se pueden combinar de manera rentable en una sola plataforma. Las aplicaciones pueden acceder directamente a una cantidad mucho mayor de datos sin añadir latencias o la complejidad del movimiento de información entre sistemas de almacenamiento diferentes.
Para muchas de las cargas de trabajo impulsadas por IAl y ML, aprovechar más datos para el análisis genera un mayor conocimiento, lo que se traduce en mejores decisiones. Además, las aplicaciones que tengan componentes que actúen en tiempo real se beneficiarán de un rápido acceso a los datos.