La irrupción de los gigantes tecnológicos, y su capacidad para proporcionar servicios en cloud ajustando el coste al servicio dispensado, ha revolucionado y popularizado en gran medida el despliegue y desarrollo de la analítica avanzada sobre datos masivos. Para asegurar el cumplimiento normativo y una gobernanza eficiente en los entornos big data se hace imprescindible la selección y utilización de herramientas, procesos y servicios especializados.

La ingente cantidad de datos con la que se trabaja en la actualidad llega con la promesa de obtener el conocimiento necesario para competir en un mercado global. En lo relacionado con el almacenamiento, el modelo tradicional on-premise está siendo cuestionado por los nuevos servicios vigentes en plataformas cloud públicas, privadas o híbridas. Esta circunstancia ha puesto de relieve la necesidad de gestionar la información de forma eficiente, orientada a negocio y conforme a las normativas de protección con un dato ubicuo.

Entender este proceso implica compatibilizar los aspectos tecnológicos, metodológicos y los que tienen que ver con la normativa, de forma integral e indisoluble.

Atendiendo al marco normativo, y más específicamente en el ámbito europeo, actualmente existe una concentración, en cuanto al mercado de proveedores cloud, en unos pocos players tales como Amazon, Microsoft y Google; mientras, otros como Oracle o IBM están intentando aumentar su penetración. Es necesario reseñar que la mayoría de estas empresas proceden de los Estados Unidos, país donde rige una legislación en materia de protección de datos diferente a la europea. De esta forma, tienen especial relevancia normativa la Privacy Shield por un lado y, por otro, el Reglamento General de Protección de Datos de la UE (GDPR).

Es necesario compatibilizar aspectos tecnológicos, metodológicos y normativos

Datos y reglamentación

En mayo de 2018, el GDPR sustituirá a la actual Directiva Europea de Protección de Datos, de obligado cumplimiento para todas las empresas que procesan datos personales de ciudadanos de la UE. Dicha sustitución tiene una serie de implicaciones relevantes, que incluye un nuevo modelo sancionador, así como severas restricciones al uso de los datos de los ciudadanos.

El alcance del GDPR no solo afecta a entidades que controlen o procesen datos que estén dentro de la Unión Europea, sino también a cualquier procesamiento de datos personales pertenecientes a ciudadanos de la UE, siempre y cuando el tratamiento se refiera a la oferta de bienes o servicios, o al seguimiento de la conducta que se lleva a cabo dentro de la UE.

Por todo ello, a las empresas y Administraciones Públicas de la UE les están surgiendo toda una serie de dudas legales respecto a cómo van a poder dar cumplimiento al GDPR y, especialmente, a cómo van a poder asegurar dicho cumplimiento si utilizan servicios de clouds públicas gestionados por empresas estadounidenses. Si los datos de las empresas clientes llegaran en algún momento a replicarse o almacenarse en algún territorio estadounidense por el motivo que fuese, automáticamente entrarían en la jurisdicción de la Ley Patriota; esto implicaría que el gobierno estadounidense podría solicitar dicha información sin el conocimiento de la persona y esto podría incumplir el citado GDPR.

Adicionalmente, es también importante resaltar los problemas prácticos de contratación con los que se encuentran los organismos públicos para poder aprovechar las capacidades de los servicios en pago por uso ajustados a las necesidades de negocio que proporcionan los grandes de Internet.

Es importante destacar el protagonismo que está adquiriendo MIKE 2.0

Mike 2.0

El ecosistema big data está adquiriendo conciencia de los problemas inherentes al marco normativo y a la presión de los sistemas en cloud. Bajo esta óptica se están desarrollando una serie de iniciativas que permiten compatibilizar ambas necesidades.

Por un lado, en cuanto a las metodologías, es importante destacar el protagonismo que está adquiriendo la denominada MIKE 2.0 (methodology for an integrated knowledge environment), teniendo en cuenta su carácter disruptivo y entroncado con los sistemas Agile y DevOps.

MIKE 2.0 tiene como punto de partida la definición de un modelo estratégico compuesto por sendos blueprints —de negocio y tecnológico— que guiarán todo el proceso de gobernanza, así como un sistema similar a sprints basados en ciclos iterativos data-driven.

Por otro lado, debemos también destacar el papel que está desarrollando HortonWorks en este escenario de MIKE, a través de una serie de interesantes iniciativas.

Apache Ranger.  Por un lado, debemos hablar de esta herramienta, que permite una gestión intuitiva y granular de las políticas en cuanto a la gestión de la información. Hace posible una especificidad de grano fino por tipo de recurso, contexto del usuario, etiquetas y operación; además de soportar el acceso basado en etiquetas, datos dinámicos, máscara y filtrado de filas. Permite un registro exhaustivo de auditorías escalable para registrar los eventos de acceso a recursos con contexto de usuario, la creación, edición y eliminación de políticas, la información de la sesión, así como las operaciones de sincronización de políticas de complementos de componente. Además, dispone también de políticas de seguridad basadas en etiquetas dinámicas

Apache Atlas. Su origen se remonta a diciembre de 2014, cuando se creó la DGI (data governance initiative). Atlas es un conjunto de servicios básicos de gobernanza fundamental, escalable y extensible, lo que permite cumplir requisitos de cumplimiento normativo dentro de Hadoop. Además, hace posible la integración con todo el ecosistema de datos. Permite gestionar el linaje de los datos, es decir, saber de dónde proviene la información, cómo se está utilizando o qué conjuntos de datos generan dichos impactos, lo cual permite emplearlo para análisis forense, análisis de impacto, auditorías y análisis de cumplimiento normativo. Entre sus características en este sentido podemos destacar:

  • Clasificación de datos. Permite la importación o definición de anotaciones orientadas al negocio de taxonomía para datos.
  • Auditoría centralizada. Permite la captura de información de acceso de seguridad para cada aplicación, proceso e interacción con datos, de la información operacional para su ejecución, pasos y actividades.
  • Búsqueda y linaje de los datos. Permite realizar una exploración de los mismos como rutas de navegación predefinidas para explorar la clasificación de datos y la información de auditoría.
  • Motor de seguridad y políticas que permiten racionalizar la política de cumplimiento en tiempo de ejecución basándose en esquemas de clasificación de datos, atributos y funciones. De igual forma, permite una definición avanzada de políticas para prevenir la derivación de datos basada en la clasificación, es decir, la reidentificación, un enmascaramiento de nivel de columna y fila basado en valores de celda y atributos.

El laboratorio de Innovación del Dato de IECISA es uno de los principales actores en el desarrollo de la metodología MIKE, así como en su aplicación a los entornos big data, especialmente en el ámbito de HortonWorks, con quien existe un acuerdo de colaboración y desarrollo conjunto para este tipo de iniciativas.