La inteligencia artificial (IA) y el aprendizaje automático (deep learning, DL) se han convertido en piezas esenciales en buena parte de los procesos de transformación digital de muchas organizaciones. Sin embargo, abordar este tipo de proyectos no siempre resulta sencillo y consume un tiempo precioso del que no todas las empresas disponen. HPE Machine Learning Development System pisa el acelerador de los proyectos IA.
La inteligencia artificial (IA) y el machine learning (ML) se encuentran en la cresta de la ola de la innovación. Apuntando hacia los procesos comerciales, servicios de atención al cliente o analítica avanzada como soporte a la toma de decisiones, las empresas han dado en los últimos años un salto cuantitativo en la adopción de estas tecnologías.
Sectores como los servicios financieros, la sanidad, el mundo del motor o incluso la agricultura, han comenzado a desplegar proyectos de envergadura. IDC prevé que este año el mercado de IA, incluidos el software, el hardware y los servicios, crezcan un 19,6% respecto al año pasado, moviendo un negocio de casi 433.000 millones de dólares. Para 2023, según la consultora, se romperá la barrera de los 500.000 millones.
Esta tecnología permite reducir los plazos de los proyectos de IA y ML de semanas o meses a días
Sin embargo, la potencia y capacidad de computación que requieren algunas de estas iniciativas no están al alcance de cualquier organización; en muchas ocasiones constituyen un coto cerrado para los grandes hiperescalares y las instituciones académicas y de investigación. Según revela un estudio de ESG, la exigencia que presentan la construcción y el entrenamiento de modelos de ML hace que las organizaciones necesiten más de cuatro meses para ver el valor de estas iniciativas y únicamente un 7% lo vea de inmediato.
Todo en uno
La computación de alto rendimiento (HPC, por sus siglas en inglés), antes patrimonio exclusivo de grandes empresas, desempeña un papel esencial en la adopción de la IA. Sin embargo, instalar y administrar cargas de trabajo paralelas, o configurar una infraestructura tecnológica que también alcanza al almacenamiento y los aceleradores, incrementa la complejidad.
De hecho, IDC precisa que, aunque un 31% de los proyectos de IA se encuentran en producción, la mayoría de ellos lo están de modo experimental y solo un tercio de ellos pueden considerarse en un estado maduro.
Esta complejidad puede llegar a retrasar proyectos de esta naturaleza. Conscientes de ello, HPE ha creado su Machine Learning Development System, en el que combina su plataforma HPE Machine Learning Development Environment con el resto de sus soluciones de IA y de supercomputación. El sistema se ha visto reforzado con la tecnología de procedente de la compañía Determined AI, adquirida el año pasado, cuya plataforma ayuda a configurar, ajustar, administrar y compartir estaciones de trabajo y clústeres que se ejecutan tanto on-premise como en la nube.
Entre las bondades de esta tecnología, que permite reducir los plazos de los proyectos de semanas o meses a días, destacan la aceleración que imprime al entrenamiento del modelo ML gracias a la programación del acelerador, la optimización avanzada de hiperparámetros o la búsqueda de arquitecturas neuronales. Además, los equipos de IA/ML se ven liberados de tareas tales como la gestión o configuración de la infraestructura, que les restan tiempo para dedicarse a extraer valor de los datos.
De menos a más
No es preciso comenzar a lo grande. Es posible iniciar el proyecto con una configuración pequeña, de 32 GPU para escalar, si es necesario, hasta alcanzar 256 GPU. Incluso con esa configuración inicial de 32 GPU se puede apreciar una eficiencia de escalado de aproximadamente el 90% para cargas de trabajo que requieran procesamiento del lenguaje natural (PLN). Esto se consigue gracias al sistema de desarrollo de ML de HPE, que ha arrojado velocidades hasta 5,7 veces superiores a otras soluciones que presentan una interconexión menos eficiente.
La configuración básica ofrece todo lo necesario para el desarrollo de modelos llave en mano y entrenamiento a escala
La configuración básica ofrece todo lo necesario para el desarrollo de modelos llave en mano y entrenamiento a escala, de modo que resulta mucho más sencillo y rápido pasar de las de pruebas de concepto (POC) a la puesta en producción. La adopción de esta pila complementaria para IA cuenta con la ayuda adicional de HPE Pointnext Services para la instalación y configuración de HPE Performance Cluster Management, esto es, el software con el que se supervisa y gestiona de un modo centralizado. Para ello se apoya en Docker, a la hora de implementar contenedores en cualquier entorno, y en Red Hat Enterprise Linux como sistema operativo. La pila cuenta también con soporte para entornos de IA como PyTorch y TensorFlow, así como con la API de machine learning basada en Python de Keras.
Desde el punto de vista del hardware, la solución incorpora al sistema HPE Apollo 6500 Gen10 que democratiza la supercomputación, comenzando con 8 GPU NVIDIA A100 de 80 GB para computación acelerada. A esta infraestructura de IA optimizada se suman, además, los servidores HPE ProLiant DL325 y el switch Ethernet Aruba CX 6300 de 1 Gb, así como la plataforma de comunicaciones NVIDIA Quantum InfiniBand, con la que quedan garantizados el rendimiento de las comunicaciones y el almacenamiento.
IA a velocidad de crucero
Disponer de este sistema combinado, creado específicamente para el entrenamiento de modelos de IA a escala, elimina los frenos que hasta hora ralentizaban, si no impedían, el éxito de este tipo de proyectos. La escalabilidad del sistema ya no representa ningún problema, pues cuenta con la flexibilidad necesaria tanto con opciones estándares como personalizadas. Todo ello bajo el paraguas de un único proveedor, lo que elimina la complejidad ligada a la integración o el soporte. En esta misma línea, la supervisión de la infraestructura y el modelado de las métricas también se simplifican significativamente al efectuarse desde una única interfaz.
De esta manera, las empresas avanzan más rápido en sus proyectos de IA sin necesidad de reescribir código, y con una solución validada que desde el primer día permite el desarrollo de modelos. Gracias a la optimización automatizada de hiperparámetros resulta más sencillo y rápido encontrar y entrenar automáticamente modelos más precisos.