Basado en numerosas tecnologías open source, Fujitsu SHOLARK permite realizar análisis semánticos complejos en tiempo real de fuentes de datos heterogéneas, para obtener informaciones concretas y unificadas a partir de las relaciones entre los datos. Su principal particularidad es que puede ser utilizado por personas que no sean especialistas en el tratamiento de datos, pero que necesitan la información resultante.

El concepto de big data está generalmente unido al del científico de datos: el especialista capaz de obtener la información que ne­cesitamos a partir del enorme pool de datos que recolecta el sistema. Sin embargo, esto ya no es así. Este tipo de soluciones están evolucionando y acercándose cada vez más al usuario final. Este esfuerzo para ser más amigables y poner a disposición de quien lo necesita la información que requiere, sin intermediarios, se materializa en soluciones como Fujitsu SHOLARK.

SHOLARK nació a partir de ciertos proyectos que Fujitsu realizó con la Administración Pública, proyectos en los que se hizo evidente esa necesidad de acercar los resultados de las tecnologías de big data directamente al usuario final, que no tiene por qué ser experto en inteligencia artificial o en analítica.

Permite la ingesta de datos procedentes de cualquier origen (redes sociales, servicios web, bases de datos, logs, imágenes, vídeo, etc.) y tiene la capacidad de ser escalado en ambas direcciones para adaptarse a las necesidades de cada momento. Su interfaz de usuario, basada en una aplicación web, propone una capa de abstracción que permite acceder a todos los servicios de la plataforma de forma transparente a la tecnología que hay por detrás, simplificando la curva de aprendizaje. De esta forma, usuarios sin experiencia en big data pueden hacer uso de un modelo semántico avanzado que permite la utilización de técnicas analíticas avanzadas, y recibir las respuestas que buscan en tiempo real.

La modularidad es la clave

Una de sus particularidades más destacables es que se trata de una solución modular, lo que permite adaptar el sistema a las necesidades del proyecto o del usuario, al volumen de los datos por procesar o a las fuentes de las que proceden estos. La arquitectura se compone de cuatro capas que, a su vez, se construyen a partir de diversos módulos que proporcionan las diferentes características:

  • Application Layer. Este es el punto de entrada principal para los usuarios. Se trata de una aplicación web basada en los estándares más habituales, que proporciona la interacción con la plataforma tanto para la ingesta de documentos como para obtener la información procesada. Para los administradores, es la herramienta que permite asignar permisos a los distintos usuarios o grupos y definir el comportamiento del sistema. En la parte de consultas ofrece dos módulos (uno de consultas normales y otro de avanzadas) mediante los que crear flujos gráficos de los datos que se pueden filtrar o transformar. Por último, el módulo de dashboard es el que permite la visualización de los datos de formas avanzadas, incluyendo un visor 360, que muestra las entidades y relaciones de la capa semántica.
  • Real Time Surveillance Layer. Una vez que el usuario ha marcado a determinadas entidades como importantes, esta capa tiene la capacidad de notificarle, en tiempo real, la aparición de nueva información relacionada con dichas entidades en el sistema. Con los resultados se generan resúmenes en PDF que permiten una utilización más universal.
  • Semantic Layer. Esta es probablemente la capa más potente de
    SHOLARK, ya que emplea un motor de inferencia para generar información semántica en tiempo real y así permitir el descubrimiento de nueva información a partir de los datos disponibles.
  • Text & Data Indexing Layer. En esta capa se dispone de un motor de búsqueda de texto que permite localizar lo que el usuario necesite, incluso si hay errores de ortografía. Por otro lado, cuenta con un módulo de OCR capaz de obtener texto editable a partir de documentos o imágenes escaneadas, a fin de indexarlo apropiadamente en la plataforma. Para asegurar la integridad de los datos, la capa emplea un sistema de ficheros tolerante a fallos capaz de almacenar datos estructurados y no estructurados.

Fujitsu SHOLARK permite “industrializar” el tratamiento de la información jurídica

Aplicaciones de Sholark

En la actualidad, el core de la solución es la aplicación de técnicas de inteligencia artificial a procesos que incluyan texto plano, es decir, documentos, información desestructurada, blogs, etc. La solución permite “industrializar” el uso de inteligencia artificial en escenarios como, por ejemplo, el tratamiento avanzado de información jurídica. Se encarga de analizar documentos legales (sobre todo sentencias judiciales), procesarlos y clasificarlos y, a partir de ahí, extrae el texto de la sentencia y produce un resumen, de tal forma que el usuario puede realizar búsquedas sobre jurisprudencia asociada a un caso sin necesidad de hacerlo manualmente. Todo este tratamiento, que hasta el momento consumía mucho tiempo, ahora lo realiza la plataforma de forma automática y, además, con mayores niveles de efectividad. Este sistema es ideal para la Administración de Justicia, así como para entidades bancarias, bufetes de abogados, etc.

Fujitsu SHOLARK también encuentra aplicación en otros ámbitos que requieren el procesamiento masivo de datos, en los que sea necesario aplicar un análisis semántico para descubrir información relevante. De hecho, en colaboración con Fujitsu Laboratories of Europe, se aplica a HIKARI (significa luz en castelleno). Se trata de una solución para el ámbito de la sanidad y los seguros médicos, cuya finalidad es aportar valor a los datos que se han recogido durante estos últimos diez años, desde la implantación del expediente electrónico de paciente. Durante todo este tiempo se ha realizado un esfuerzo importante para recopilar toda esta información, aunque todavía no se ha explotado de forma apropiada. Ese es el punto de partida de HIKARI. Junto con SHOLARK genera una capa de valor aplicando tanto data analytics como inteligencia artificial con el fin de obtener información relevante tanto para el personal médico como para los gestores. De hecho, en el proyecto que Fujitsu ha realizado con el Hospital Clínico San Carlos, se ha contado con la implicación activa de médicos y expertos en el campo. Una de las primeras experiencias realizadas ha sido en el área de salud mental, con el objetivo de predecir determinados riesgos.

Otro área de aplicación para SHOLARK es el análisis de amenazas en el ámbito de seguridad y ciberseguridad. A partir de información ya existente, o información recibida en tiempo real, el sistema es capaz de ayudar en las tareas de prevención, detección e investigación de determinadas amenazas. Para ello genera un modelo homogéneo sobre distintos repositorios, lo que permite cruzar información enriquecida para identificar perfiles de riesgo o patrones de movimiento sospechosos. El cruce en tiempo real de toda la información disponible permite establecer mecanismos de coordinación entre diferentes cuerpos y agencias de seguridad, eliminando duplicidades y maximizando la capacidad de de­cisión para la prevención.

Integración con sistemas legacy actuales

SHOLARK se integra con la capa de gestión de usuarios, con los directorios activos y, en general, con todos los sistemas tradicionales, ya que está basado en estándares y la conexión efectiva con las fuentes de información (que pueden ser sistemas legacy o almacenes de datos basados en PostgreSQL, Elasticsearch, HDFS y otros) se realiza sin problemas.