Cuando se trata de gestionar un entorno —como es el área de middleware— que crece de forma desenfrenada, no basta con aumentar el número de profesionales con experiencia y conocimientos. Como en muchos otros ámbitos empresariales, la automatización y la inteligencia artificial resultan fundamentales para responder a las actuales demandas de un negocio cada vez más complejo y digital.

Partir de los datos, de la información sobre el funcionamiento y la gestión de las plataformas, para ir avanzando hacia un middleware autónomo, mucho más eficiente y, sobre todo, que garantice la sostenibilidad de un modelo que se plantea ya como inmanejable: un pozo negro de recursos.

Hacia un middleware autónomo

Este es un camino que ya han iniciado, o deberían haberlo hecho, todo tipo de empresas en una amplia variedad de sectores, si bien, seguramente, las que se dedican al ámbito financiero y asegurador sean las que lo están viviendo con una mayor intensidad.

“Utilizamos mucho la inteligencia artificial en lo relacionado con la observabilidad”

Para tratar sobre este escenario, y sobre la solución planteada por Mutua, hemos hablado con Marta Ceciliano, head of Middleware, Automation and Observability en Mutua Madrileña. Llegó a esta entidad hace dieciocho años como arquitecto Java (J2EE), con responsabilidades ligadas al desarrollo y a las plataformas. Durante su trayectoria profesional en el área de middleware ha vivido las diferentes etapas por las que ha pasado esta empresa a medida que avanzaba el proceso de digitalización.

Marta Ceciliano, head of Middleware, Automation and Observability en Mutua Madrileña

El escenario se fue complicando cada vez más y el punto cumbre llegó en 2016, cuando en Mutua se inició un plan de transformación digital bastante ambicioso. Como resultado, el número de plataformas a las que da soporte pasó de nueve a más de sesenta.

“En el caso de Mutua, el middleware se encarga del ciclo de vida de una plataforma. Participamos en el diseño técnico de la solución, en el provisionamiento de los entornos, en hacer el tuning, configuraciones, monitorización, alertas, adaptar las prácticas que nos proponen los equipos de seguridad, updates o la operación del día a día. Si tenemos que hacer todas esas cosas de forma manual para sesenta plataformas…”.

Ahí es donde se introdujo la automatización. A partir de 2015, en lugar de incorporar perfiles con conocimientos sobre servidores, aplicaciones o middleware en general, Marta Ceciliano solicitó incorporar, como parte de un equipo externo, a un especialista en automatización.

“Al principio llamó mucho la atención, porque nadie se planteaba darle ese rango, introduciendo a una persona que solo automatice. Pero ese fue el punto de inflexión para poder incorporar este tipo de prácticas en el área de middleware.

En busca de la eficiencia

El objetivo principal era aumentar la productividad, mejorar el time-to-market. Si una plataforma necesitaba ponerse en producción, no se podían seguir dando todos esos pasos (plantear el diseño técnico, el provisionamiento del entorno, etc.) de forma manual.

Además, en cuanto a estándares, se buscaba dar el mismo grado de soporte a todas las plataformas, estandarizando la calidad. “La propuesta fue automatizar el aprovisionamiento de entornos: pensarlo bien una vez, escribir el procedimiento y luego lanzarlo tantas veces como sea necesario”.

Se trata de pensarlo bien una vez, escribir el procedimiento y luego lanzarlo tantas veces como sea necesario

Además, esto permitía solucionar el problema derivado de la dificultad para contratar técnicos especializados. La automatización permitió asignar tareas más básicas a equipos ligados a la operación, lo que ayudó a que los especialistas pudieran centrarse en dar valor a la empresa. “No queríamos que una persona con quince años de experiencia en middleware se pusiera a hacer el reinicio de un servidor”.

Por otra parte, había que documentar las instalaciones. Teniendo en cuenta la rotación de los equipos, se buscaba que el conocimiento se quedara siempre en Mutua. “En el equipo de middleware hay un nivel de externalización bastante alto y era importante salvaguardar el conocimiento acerca de cómo se provisionan los entornos, garantizando que se quedara dentro de la empresa. Además, nos sirvió como documentación escrita y automatizada de todo lo que vamos aprendiendo”.

Demostrar los beneficios

Una de las derivadas de este camino de automatización de las infraestructuras fue avanzar en el modelo DevOps, otorgando más capacidades a los equipos de desarrollo para que puedan lanzar tareas que normalmente se hacen mediante ticket. “Ahora lo hacen ellos directamente, a través de un catálogo de autoservicios”.

A partir de enero de 2023 esto se ha potenciado mucho más. De hecho, el número de tickets ha disminuido en un 57%. “Las tareas del día a día las hemos reducido en un 57% en el mes de mayo de este año. Ese es el dato más claro y nos ha servido para demostrar el valor y los beneficios”.

Esto de demostrar los beneficios es algo especialmente importante en el contexto de la automatización. “Como se suele decir, a veces no nos paramos a afilar el hacha y seguimos talando árboles sin tener filo. Hay que parar, ver cómo podemos mejorar y, por supuesto, medirlo para tener claro el retorno; porque lo que no se mide no existe”.

Agilidad para el negocio

Es evidente que el área de negocio es consciente de lo que aporta la automatización. Aunque el área de middleware trabaja más con las capas de desarrollo, y no trata directamente con Negocio, es el modo de poder ofrecerle la velocidad que demanda el mercado.

“Negocio sí percibe que cuando se solicitan desarrollos o cambios, el tiempo se reduce. Pero, tal y como está hoy en día el mercado, especialmente en el sector de los seguros, ya es muy exigente con los tiempos y no nos podemos permitir retrasos”.

Negocio pide los cambios a Desarrollo, que tiene cada vez más herramientas para poder responder con agilidad. Ahora se puede hacer un cambio directamente en el código y lanzar disparadores que hacen que este se despliegue en todos los entornos, se lancen pruebas automáticas y llegue directamente a producción. Esto mismo, con una interacción manual, multiplicaría los tiempos.

En Mutua se comenzó con una sola persona. Ahora mismo, el equipo de automatización lo conforman cuatro, tres de ellas externas, que se dedican a dar soporte en lo relativo a automatización, observabilidad, herramientas de integración, middleware base, herramientas de API Gateway o de SSO (single sign on), etc.

Otro de los beneficios obtenidos se relaciona con el aprovisionamiento de los entornos, que ahora es muchísimo más rápido, incluso aunque haya que rehacerlos. “De hecho, estamos intentando que la automatización sea un paso obligatorio dentro del roadmap de todos los proyectos, que no sea vista como algo que se hace al final, con los recursos sobrantes”.

Las mejoras que se han percibido durante este tiempo no solo se ven en la reducción de los tiempos o del número de tickets recibidos, sino también en ámbitos como la calidad, el time-to-market y el uso del know how de los empleados, que ahora se pueden dedicar a tareas más especializadas.

Plataforma de automatización

En un principio, todos los despliegues eran manuales, pero este no era un proceso eficiente: “En su momento contábamos con un servidor de aplicaciones de IBM, y comenzamos con una herramienta muy de IBM que daba la capacidad —a través de línea de comandos— de automatizar el despliegue”.

Teniendo en cuenta los resultados obtenidos, surgió la iniciativa de utilizarlo también para el aprovisionamiento de los servidores de aplicaciones y de los entornos. “Con el paso del tiempo, no solo teníamos aplicaciones en WebSphere, sino que entramos en el mundo de Red Hat OpenShift o de otras plataformas. En ese momento, buscamos una herramienta que fuera válida para todo”.

Una de las máximas del área de tecnología y de sistemas ha sido siempre tratar de automatizar lo máximo

El siguiente paso fue hacer un estudio de las herramientas de automatización existentes, y Red Hat Ansible Automation Platform fue la elegida. “Hicimos diferentes pruebas de concepto y elegimos Ansible, pasando de una herramienta muy de nicho a una que podemos utilizar para hacer el provisionamiento o el despliegue de cualquier plataforma. De hecho, aún hoy en día, teniendo en cuenta el avance de las tecnologías, todavía considero que acertamos con esta decisión”.

Autorremediación

Otro de los beneficios clave de la automatización es la autorremediación. “Antes de que se hablara de observabilidad y de autorremediación, en 2016 y 2017 ya hicimos las primeras autorremediaciones. Incluso participamos en una edición del Red Hat Summit (en Boston, Estados Unidos) para hablar de ello, aunque por aquel entonces no sabíamos que se llamaba event-driven.

Una de las máximas del área de tecnología y de sistemas ha sido siempre tratar de automatizar lo máximo, reducir el número de llamadas y que esté todo lo más controlado posible, y Ansible ha encajado muy bien en ese concepto de observabilidad.

“Se trata de tener una monitorización avanzada, no tan basada en componentes sino de extremo a extremo. Que, en el momento en que el base line no se está cumpliendo, o cuando se produce un comportamiento diferente al que suele haber, se dispare un evento que compruebe si realmente hay un problema y actúe en consecuencia”.

La automatización ha sido la clave, junto con la observabilidad, para tener la capacidad de autorremediar, de resolver las incidencias. “Antes, cuando había un problema, la respuesta era manual: la persona de negocio llamaba a la de desarrollo, que contactaba con el teléfono de guardia para ver dónde podía estar el problema. Mientras eso se corregía, el servicio podía permanecer parado durante horas. El impacto era realmente alto”.

El camino de automatización de las infraestructuras nos ha permitido avanzar en el modelo DevOps

Se ha pasado de un modelo manual, donde solo se revisaban componentes, a tener una visión end to end del proceso, y, en el momento en que se detecta un fallo o simplemente un comportamiento ligeramente diferente al que se espera, se dispara un evento. En ese momento se comprueba en profundidad el elemento que está fallando y se ejecutan las automatizaciones necesarias para remediarlo.

“Hemos pasado de tiempos de respuesta de una o dos horas, en el mejor de los casos, a que ni siquiera ocurra el fallo. Si somos proactivos detectando un cambio de comportamiento, nos podemos adelantar al fallo. Incluso hay casos en los que no hay pérdida de servicio, ya que actuamos mientras el servicio está levantado. El problema es cuando tienes que reaccionar con el problema ya desatado”.

Inteligencia artificial

En Mutua ya cuentan con una plataforma de observabilidad basada en varios productos de mercado, como Elasticsearch, Grafana o Dynatrace. En el caso de Dynatrace, es una APM (application performance monitor) que les permite ver las aplicaciones y su nivel de rendimiento, pero que, además, incluye un motor de inteligencia artificial (Davis) que se encarga de aprender sobre el comportamiento de las aplicaciones y de levantar alertas en casos de desviaciones.

“Utilizamos mucho la inteligencia artificial en lo relacionado con la observabilidad. Todo lo que se puede observar se puede medir, se puede mejorar y se puede remediar. Ahí es donde la inteligencia artificial nos está aportando mucho”.

Lecciones aprendidas

Han sido muchos años desarrollando la automatización, la observabilidad y la autorremediación en Mutua, un recorrido del que se pueden extraer numerosas lecciones. Un mantra que se repite una y otra vez es la necesidad de parar, pensar y, después, actuar: “Ver qué necesita tu empresa, qué se necesita automatizar, qué posibilidades se abren y, a partir de ahí, elegir la herramienta que mejor se adapte a tus necesidades. Para nosotros fue Ansible, pero para otros puede ser otra”.

Además de esto, Marta Ceciliano destacó algunos aspectos que es importante tener en cuenta:

  • Incorporar una filosofía Github. Todo el código debe estar en un repositorio con control de versiones, para que cualquier cambio o modificación en un parámetro queden guardados.
  • La observabilidad debe ir de la mano de la automatización. Para remediar, hay que medir; y para medir, primero hay que observar. En Mutua esto se consiguió a través de un conjunto de herramientas de mercado con las que construyeron una plataforma de observabilidad propia que les sirve de disparador.
  • Con la automatización hay que ir poco a poco. Hay que evitar ser demasiado ambicioso: se ha de empezar primero con un proyecto, analizar los beneficios, los riesgos y la inversión necesaria, y ver qué aporta. “La automatización aporta siempre, pero hay que hacer el estudio y medir”.

“La automatización te da las piezas del lego y la inteligencia artificial permite ponerlas con cierto orden”

  • Tratar de integrarse con lo que existe. En ocasiones, los cambios disruptivos no son beneficiosos. No se puede entrar como un elefante en una cacharrería, retirando todo lo que es antiguo, porque lo que muchas veces se consigue es un rechazo. Hay que integrarse con lo que hay, y cuando se demuestra que algo no sirve o ya no se necesita, se decomisiona.

Por otra parte, Marta Ceciliano también se refirió al impulso de la automatización. Hay dos formas de acercarse: partiendo desde las capas más ejecutivas o, como se hizo en Mutua, mediante una aproximación desde los equipos. Desde el área de middleware fueron pioneros en su ámbito de actuación, para después ir elevando la automatización, mostrando los beneficios que ofrece para que vaya extendiéndose.

“Vimos que había una necesidad y lo empezamos a empujar hacia los departamentos de ingeniería, hacia los equipos de desarrollo, incluso hacia otras áreas, como la de datos, que también tiene un grupo de robótica. Empezamos con algo más pequeño, en middleware, y la idea es hacerlo más transversal y llevarlo a toda la empresa”.

El camino de la automatización

Ceciliano se refirió a la famosa frase “Hasta el infinito y más allá” para describir sus objetivos de automatización: “No hay una meta. Vamos a seguir empujando para que sea algo transversal a toda la organización, más allá del middleware; para que la automatización y la autorremediación se extiendan a otros equipos de ingeniería, de Linux o de plataforma”.

Es más, siguiendo la línea marcada por el proyecto Cero Tickets, otro de los objetivos pasa por reducir también el número de incidencias que se reciben en otros departamentos.

No hay una meta. Vamos a seguir empujando para que sea algo transversal a toda la organización

Un área que se quiere potenciar la relacionada con SecDevOps. “Ya tenemos el DevOps bastante trabajado, con un departamento de ciberseguridad muy muy potente. El siguiente paso sería hacer que todo lo relacionado con la ciberseguridad esté también integrado con esta capa de automatización”.

Por último, también destacó que uno de sus objetivos clave es seguir avanzando en el uso de la inteligencia artificial: “Aunque ya se está utilizando en lo relacionado con la observabilidad, se están abriendo muchas líneas nuevas en ese camino de medir, observar y generar un evento cuando ocurre algo diferente”.

Por último, también tienen en marcha proyectos de intraemprendimiento para potenciar también la automatización en los call centers, en la gestión de proyectos, etc.: “La automatización te da las piezas del lego y la inteligencia artificial permite ponerlas con cierto orden. Si se quiere llegar a la inteligencia artificial, hay que pasar por la automatización”