Romper las barreras entre mainframe y Hadoop

Syncsort DMX-h

2129
En muchas compañías, la ejecución de aplicaciones críticas y el procesamiento de grandes volúmenes de datos se están llevando a cabo en mainframe. El análisis de la información y la integración con otras aplicaciones es vital para el éxito, pero se trata de un reto complicado que requiere de tecnologías muy especializadas que nos faciliten este camino. La asociación de Hadoop y Syncsort proporciona el expertise y las funcionalidades que permite abordar el proyecto con garantías de éxito.

Los proyectos de modernización de aplicaciones, o downsizing mainframe-distribuido, son un tipo de proyecto muy demandado en los últimos tiempos. Cada empresa tiene un enfoque distinto; mientras que para algunos el objetivo es simplemente descargar ciertas cadenas de ejecución batch, para otros la idea es llevarse toda la operativa a entornos distribuidos. En cualquier caso, la famosa utopía de apagar el mainframe en entidades importantes, poco a poco, se está convirtiendo en realidad.

Cuando hablamos de mainframe estamos pronunciando palabras mayores. Se trata de un entorno muy estable, con más de 50 años de trabajo, en el cual están instalados el core y los datos claves de la actividad de la compañía. La explotación de dicha información en otro tipo de sistemas distribuidos no es un proyecto sencillo dadas las características únicas de este entorno, como puede ser la dificultad de acceso, el tratamiento de formato EBCDIC, la tipología de datos, etc.

Por otro lado, las arquitecturas tradicionales open no escalan de forma suficiente para dar cobertura a este tipo de proyectos, y es en este punto cuando Hadoop comienza a cobrar sentido.

Llevar y procesar los datos de mainframe sobre un entorno Hadoop no es un camino sencillo, y si no contamos con las herramientas adecuadas, puede convertirse en un proyecto complicado e infructuoso. Para este tipo de proyectos, Syncsort DMX-h facilita la ingesta, transformación y procesamiento de los datos procedentes de mainframe en el entorno Hadoop.

Hay tres cosas que deberíamos saber sobre Hadoop y mainframe.

  • Integración. Hadoop no ofrece conectividad nativa con el entorno mainframe, ni las capacidades necesarias para procesar ficheros, ni tipos de datos mainframe (ficheros de longitud variable, datos packed decimal, ficheros VSAM, etc.). Estas carencias obligarían a desarrollar programas y funcionalidades para solventarlas, lo que complicaría mucho el éxito final teniendo en cuenta la complejidad de esta primera fase.
  • Expertise. COBOL nació en 1959. Desde entonces, el mundo de IT ha cambiado bastante. Si queremos abordar proyectos de descarga desde mainframe a un entorno distribuido deberíamos ser capaces de sintetizar y cubrir todos los puntos que se tratan en entorno COBOL; solo entonces estaremos en disposición de escribir código para extraer, transformar desde formato EBCDIC a formato ASCII y cargarlo correctamente en los filesystem HDFS de Hadoop.
  • Costes. El modelo de facturación basado en MIPS (millones de instrucciones por segundo) hace que el mainframe sea un entorno costoso para el procesamiento de los datos. El objetivo de los proyectos de descarga de aplicaciones de entorno mainframe es reducir el consumo de MIPS y la ejecución de las aplicaciones en otro tipo de sistemas abiertos no propietarios, mucho menos costosos y más fácilmente integrables con cualquier nuevo desarrollo.
FIGURA 1. Modernización de mainframe a entorno Hadoop.

Proyectos de descarga desde mainframe a hadoop

El 83% de los proyectos de descarga de mainframe sufre sobrecostes y no cumple los plazos de entrega. Los objetivos de un proyecto de modernización o descarga de entorno mainframe a entorno Hadoop resultan muy prometedores:

  • Reducción de los costes asociados al mainframe.
  • Modernizar las aplicaciones.
  • Facilitar la integración de dichas aplicaciones en cualquier otro entorno.
  • Mejorar la usabilidad y el mantenimiento.

Pero no es un camino sencillo, e intentar abordar un proyecto de este tipo sin las herramientas adecuadas puede convertirse en un proyecto largo, tedioso y con muchos problemas técnicos que exijan complejas soluciones.

Syncsort DMX-h es una herramienta de última generación que combina el expertise de Syncsort (más de 40 años desarrollando mejoras en el rendimiento y en conectividad de sistemas mainframe y sistemas distribuidos), con las funcionalidades de Hadoop como un framework revolucionario, que nos ofrece a bajo coste una serie de capacidades de ejecución, de escalado y de almacenamiento hasta ahora desconocidas.

Con Syncsort DMX-h, podemos dar solución técnica a los puntos clave de este tipo de proyectos:

  • Conectividad desde cualquier nodo de  Hadoop a mainframe sin necesidad de instalar nada en el entorno mainframe y con un consumo “cero” para la obtención de estos datos. La conectividad se realizará a través de  FTP, sFTP o mediante los ConnectDirect que nos ofrece Syncsort.
  • La extracción de datos directa desde mainframe a Hadoop sin necesidad de tener un entorno intermedio para llevar a cabo el procesamiento y la transformación de datos de EBCDIC a ASCII. Este punto permite tener una arquitectura sencilla, sin nodos ni almacenamientos intermedios.
  • Conversión de datos mainframe on-fly para grabarlos en entorno Hadoop (filesystem HDFS). La conversión de datos EBCDIC a datos ASCII, se trata de un proceso complejo, pesado en el tiempo y propenso a errores. Aprovechando el expertise de Syncsort, esta solución permite llevar a cabo la conversión de cualquier formato de datos procedente del mainframe de forma on-fly, sin tiempos de espera, sin una sola línea de código y con garantías de un rendimiento excepcional.
  • Multiplica el rendimiento de la arquitectura Hadoop solamente con indicar que utilice el SORT de Syncsort DMX-h. Algunas de las principales distribuciones de Hadoop —como son Cloudera, HortonWorks o MAP-R— ya incluyen en sus distribuciones la capacidad de indicar que utilice un SORT tercero de forma fácil y transparente, simplemente cambiando variables de entorno. El 90% de las operaciones que ejecuta Hadoop en estado latente son operaciones de tipo SORT.
  • Aumenta la productividad de los desarrolladores, puesto que Syncsort DMX-h  ofrece una interfaz gráfica de desarrollo GUI, que permite desarrollar tareas sobre Hadoop sin necesidad de conocimientos sobre el framework MapReduce. Esta interfaz gráfica permite, de forma sencilla, importar metadatos (por ejemplo COBOL COPYBOOK) y desarrollar cualquier tarea para la extracción, el procesamiento y la carga de datos dentro de Hadoop.

Todo este tipo de funcionalidades ayuda, de una manera muy significativa, a conseguir el éxito en los proyectos de modernización de mainframe a entorno Hadoop, y permite acometer el proyecto con las garantías de tener cubiertas muchas de las casuísticas que encontraremos, y con unos rendimientos espectaculares.

Conclusiones

Abordar un proyecto de modernización mainframe es una decisión de gran trascendencia para una compañía, que implica la mudanza de uno de los soportes “vitales” de su actividad. Es importante seleccionar las mejores tecnologías para ayudarnos en este camino de transición, y que permita mantener unos niveles de fiabilidad y de rendimiento mejores que los obtenidos en el anterior entorno mainframe. Y todo ello acompañado de una notable reducción de costes.

Syncsort DMX-h ofrece muchas de las funcionalidades que van a permitir abordar el proyecto con tranquilidad. Además, en la fase de producción permitirá dotar a la nueva arquitectura Hadoop de una conectividad extra entre entornos y de unos rendimientos extraordinarios.